更新时间:2024-05-08 GMT+08:00
分享

创建知识库数据集

知识库是一个组织、存储及管理知识的系统,包括文档、数据库、图表、表格等多种形式的信息的分类、整理和归纳,可以帮助用户组织和管理大量的信息,以便快速访问和使用。数据集是知识库的组成元素。用户可自主创建用于知识库的数据集。

操作步骤

  1. 在AI原生应用引擎工作台的左侧导航栏选择“知识中心 > 知识库数据集 ”。
  2. 在“我的数据集”页面,单击右上角“创建知识库数据集”。
  3. 在“创建数据集”页面,参照表1进行相关参数的配置。

    表1 数据集配置参数说明

    参数名称

    参数说明

    基础配置

    数据集名称

    自定义数据集名称。命名要求:长度2~20,不能以下划线数字开头,只能由中文、字母、数字、下划线组成。

    数据集描述

    输入数据集的相关描述。

    标签

    在下拉列表选择数据集的分类标识。

    数据类型

    根据实际需要可选以下两种:

    • 文档
    • 图片
    • 图片-摘要
    • 视频-摘要
    • 图文PDF

    向量模型服务

    可选我创建的模型服务或我收藏平台模型服务。

    分段配置

    数据分段模式

    “知识库类型”选择“文档”时,需配置此参数。在下拉列表可选以下模式:

    • 自动切分:按照系统默认预设的规则和分隔符切分。
    • 自定义切分:自定义分段规则,分隔符,以及分段长度等参数。
    • 标题切分:按标题级别分块,分块后的内容按照自定义规则切分(标题切分仅支持docx格式,非docx格式的文件会按照自动切分处理)。

    标题层级深度

    知识库类型选择“文档”且数据分段模式为“标题切分”,或知识库类型选择“图片”时,需配置此参数。

    例如文本包含最多5级标题,选择的标题层级深度为3,则会分别将所有3级标题下的内容合并成文本块,文本块作为一个整体执行后续切分操作。

    标题保存方式

    知识库类型选择“文档”且数据分段模式为“标题切分”,或知识库类型选择“图片”时,需配置此参数。

    • 多标题组合:多级标题用特定符号组合:1级标题-2级标题-3级标题-…-文本
    • 最后一级标题:仅组合最后一级标题:最后一级标题-文本

    分段策略

    知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。在下拉列表可选以下策略:

    • 递归切分:所选分隔符先后作为优先级顺序,优先高的先切分,切分后大于最大长度的分段再用优先级低的分隔符切分,如此往复。
    • 等价切分:分隔符无优先级,使用所选的所有分隔符切割,合并至分段最大长度。

    分段分隔符

    知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。

    设置用于文本分段的分隔符号。在下拉列表可选以下分隔符号:

    • 英文逗号 ,
    • 中文逗号 ,
    • 换行 \n
    • 空两行 \n\n
    • 空格
    • 英文句号 .
    • 中文句号 。
    • 英文问号 ?
    • 中文问号 ?
    • 英文感叹号 !
    • 中文感叹号 !

    分段最大长度

    知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。

    用于设置文本分段后每段的最大长度。

    分段重叠长度

    知识库类型选择“文档”且数据分段模式为“自定义切分”、“标题切分”,或知识库类型选择“图片”时,需配置此参数。

    用于设置当前分段开头与上一个分段结尾重叠部分的长度。

    选择数据

    数据来源

    选择数据集的数据来源。支持以下两种来源:

    • 文件上传
    • OBS接入

    数据文件上传

    当“数据来源”选择“文件上传”时,需配置此参数。

    单击“文件上传”选择本地JSON格式的文件进行上传(仅支持JSON格式)。

    OBS桶名

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的OBS桶名。

    OBS路径

    当“数据集来源”选择“OBS接入”时,需配置此参数。

    在下拉列表中选择数据所在的具体OBS路径。

    调度配置

    调度类型

    可选如下两种类型,其中本地文件上传仅支持一次性调度,OBS接入支持一次性调度或定时调度两种类型。

    • 一次性调度
    • 定时调度

    版本模式

    可选覆盖模式、多版本模式。

    执行周期

    可选周期包括:

    • CRON:通过特定的自动化运行命令或脚本指定时间间隔(例如每分钟、每小时、每天等)。
    • 天:每天执行。

    CRON表达式

    “执行周期”选择“CRON”时,需配置此参数。

    示例:0 0/5 * * * ?

    执行时间

    “执行周期”选择“天”时,需配置此参数。

    设置每日开始执行的时间。

    立即执行

    选择是否立即执行。

    高级配置(选配)

    数据清洗配置

    在下拉列表可选以下(支持多选):

    • 删除所有的URL和电子邮件地址
    • 清除连续的空格,换行符和制表符
    • 清除不可见字符
    • 规范化空格
    • 清除乱码
    • 清除网页标识符
    • 清除表情

    向量数据索引文件

    根据实际需要可选以下:

    • 文件上传
    • 从数据源指定

    文件上传

    “向量数据索引文件”选择“文件上传”时,需配置此参数。

    单击“文件上传”选择本地文件进行上传。

    索引文件OBS桶名

    “向量数据索引文件”选择“从数据源指定”时,需配置此参数。

    在下拉列表选择索引文件OBS桶名。

    索引文件OBS地址

    “向量数据索引文件”选择“从数据源指定”时,需配置此参数。

    在下拉列表选择索引文件OBS地址。

  4. 单击“保存”。创建的数据集显示在“我创建的”页签的数据集列表中,创建数据集完成。

更多操作

创建数据集完成后,可根据需要执行如表2所示的操作。

表2 更多操作

操作

步骤

修改数据集

  1. 在“知识库数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选数据集并单击“操作”列的“修改”。
  3. 在“修改数据集”页面,仅支持修改数据集描述、修改标签名称。

删除数据集

  • 单个删除数据集:
    1. 在“知识库数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选单个数据集,然后选择“操作”列的“删除”。
    3. 单击“确认”。
  • 批量删除数据集:
    1. 在“知识库数据集”页面选择“我创建的”页签。
    2. 在数据集列表勾选多个数据集,再单击列表上方“批量删除”。
    3. 在“批量删除”对话框,单击“确认”。

标注数据集

说明:

只有同时满足用途为“模型训练”、任务领域为“自然语言处理”、任务子领域为“文本生成”、数据集格式为“对话文本”四个条件的数据集才可进行标注。

  1. 在“知识库数据集”页面选择“我创建的”页签。
  2. 在数据集列表勾选单个数据集,然后选择“操作”列的“标注”。
  3. 进入“数据标注”页面,参照标注数据进行数据标注。
分享:

    相关文档

    相关产品