创建知识库数据集
知识库是一个组织、存储及管理知识的系统,包括文档、数据库、图表、表格等多种形式的信息的分类、整理和归纳,可以帮助用户组织和管理大量的信息,以便快速访问和使用。数据集是知识库的组成元素。用户可自主创建用于知识库的数据集。
操作步骤
- 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 知识库数据集 ”。
- 在“我的数据集”页面,单击右上角“创建知识库数据集”。
- 在“创建数据集”页面,参照表1进行相关参数的配置。
表1 数据集配置参数说明 参数名称
参数说明
基础配置
数据集名称
自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。
数据集描述
输入数据集的相关描述。
标签
在下拉列表选择数据集的分类标识。
数据类型
根据实际需要可选以下两种:
- 文档
- 图片
- 图片-摘要
- 视频-摘要
- 图文PDF
向量模型服务
可选我创建的模型服务或我收藏平台模型服务。
分段配置
数据分段模式
“知识库类型”选择“文档”时,需配置此参数。在下拉列表可选以下模式:
- 自动切分:按照系统默认预设的规则和分隔符切分。
- 自定义切分:自定义分段规则,分隔符,以及分段长度等参数。
- 标题切分:按标题级别分块,分块后的内容按照自定义规则切分(标题切分仅支持docx格式,非docx格式的文件会按照自动切分处理)。
标题层级深度
知识库类型选择“文档”且数据分段模式为“标题切分”,或知识库类型选择“图片”时,需配置此参数。
例如文本包含最多5级标题,选择的标题层级深度为3,则会分别将所有3级标题下的内容合并成文本块,文本块作为一个整体执行后续切分操作。
标题保存方式
知识库类型选择“文档”且数据分段模式为“标题切分”,或知识库类型选择“图片”时,需配置此参数。
- 多标题组合:多级标题用特定符号组合:1级标题-2级标题-3级标题-…-文本
- 最后一级标题:仅组合最后一级标题:最后一级标题-文本
分段策略
知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。在下拉列表可选以下策略:
- 递归切分:所选分隔符先后作为优先级顺序,优先高的先切分,切分后大于最大长度的分段再用优先级低的分隔符切分,如此往复。
- 等价切分:分隔符无优先级,使用所选的所有分隔符切割,合并至分段最大长度。
分段分隔符
知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。
设置用于文本分段的分隔符号。在下拉列表可选以下分隔符号:
- 英文逗号 ,
- 中文逗号 ,
- 换行 \n
- 空两行 \n\n
- 空格
- 英文句号 .
- 中文句号 。
- 英文问号 ?
- 中文问号 ?
- 英文感叹号 !
- 中文感叹号 !
分段最大长度
知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。
用于设置文本分段后每段的最大长度。
分段重叠长度
知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。
用于设置当前分段开头与上一个分段结尾重叠部分的长度。
选择数据
数据来源
选择数据集的数据来源。支持以下两种来源:
- 文件上传
- OBS接入
数据文件上传
当“数据来源”选择“文件上传”时,需配置此参数。
单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。
OBS桶名
当“数据集来源”选择“OBS接入”时,需配置此参数。
在下拉列表中选择数据所在的OBS桶名。
OBS路径
当“数据集来源”选择“OBS接入”时,需配置此参数。
在下拉列表中选择数据所在的具体OBS路径。
调度配置
调度类型
可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。
- 一次性调度
- 定时调度
版本模式
可选覆盖模式、多版本模式。
执行周期
可选周期包括:
- CRON:通过特定的自动化运行命令或脚本指定时间间隔(例如每分钟、每小时、每天等)。
- 天:每天执行。
CRON表达式
“执行周期”选择“CRON”时,需配置此参数。
示例:0 0/5 * * * ?
执行时间
“执行周期”选择“天”时,需配置此参数。
设置每日开始执行的时间。
立即执行
选择是否立即执行。
高级配置(选配)
数据清洗配置
在下拉列表可选以下(支持多选):
- 删除所有的URL和电子邮件地址
- 清除连续的空格,换行符和制表符
- 清除不可见字符
- 规范化空格
- 清除乱码
- 清除网页标识符
- 清除表情
向量数据索引文件
根据实际需要可选以下:
- 文件上传
- 从数据源指定
文件上传
“向量数据索引文件”选择“文件上传”时,需配置此参数。
单击“文件上传”选择本地文件进行上传。
索引文件OBS桶名
“向量数据索引文件”选择“从数据源指定”时,需配置此参数。
在下拉列表选择索引文件OBS桶名。
索引文件OBS地址
“向量数据索引文件”选择“从数据源指定”时,需配置此参数。
在下拉列表选择索引文件OBS地址。
- 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。
更多操作
创建数据集完成后,可根据需要执行如表2所示的操作。
操作 |
步骤 |
---|---|
修改数据集 |
|
删除数据集 |
|
标注数据集 |
说明:
只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。
|