- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 大模型概念类问题
-
大模型微调训练类问题
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类问题
- 提示词工程类
- 文档下载
- 通用参考
本文导读
链接复制成功!
合成文本类数据集
当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。
创建文本类数据集合成任务
合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。
创建文本类数据集合成任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据加工 > 数据合成”,单击界面右上角“创建合成任务”。
- 在“创建合成任务”页面,选择需要合成的数据集,单击“下一步”。
- 进入“合成配置”页面,选择合成内容与合成轮数,可选择开启“将源数据集整合至合成后数据”。
- 单击“下一步”,进入“指令编排”页面,单击右上角“添加指令”。
- 在“添加指令”页面可选择预置指令或自定义指令。
- 预置指令。平台为用户提供了多种预置指令,便于用户执行合成任务。
- 自定义指令。平台支持编排用户自定义指令。自定义指令的创建详见创建自定义数据合成指令。
- 指令选择完成后,单击“确定”,并配置指令参数,包括“变量取值”、“保存至任务输出参数”、“模型选择”。
如图1,展示了预训练文本类数据集的合成指令参数配置示例,该合成任务实现利用预训练文本生成问答对。
其中,各参数介绍如下:
- 变量取值:输入参数的各个变量取值。取值可以是数据集中的字段变量,也可以自定义变量值。
- 保存至任务输出参数(可选):该参数为输出的结果。由于输出结果为问答对形式,因此生成的问题必须选择context参数,回答必须选择target参数。
- 模型选择:选择平台预置的大模型,用于指令合成。
- 指令编排完成后,单击右上角“启用调测”,可以对当前编排的指令效果进行预览。
- 指令调测完成后,单击“创建并启动”,平台将启动合成任务。
- 当数据合成任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成合成操作。
说明:
在完成数据合成后,若无需使用数据标注功能,可直接在“数据合成”页面单击操作列“生成”,生成加工数据集。
加工数据集列表可在“数据工程 > 数据加工 > 加工数据集”中查看。
创建自定义数据合成指令
平台支持用户创建自定义数据合成指令。
本章节将以“生成主题散文”的场景为例,详细介绍自定义数据合成指令的配置步骤。
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据管理 > 数据指令”,在“自定义”页签,单击“创建指令”。
- 在“创建指令”弹窗中,输入名称、类型,选择用途与描述,单击“确定”,进入配置合成指令页面。
- 选择变量标识符为“双大括号{{}}”,输入指令为“请以{{topic}}为主题,写一篇字数不超过{{num}}的散文。”
- 按照表1进行变量配置。
其中,输出变量的“变量描述”字段为大模型理解的内容,需仔细填写。
图3 配置变量
- 配置模型。单击“添加模型”,选择指令所需的模型,可自定义设定超参数值,单击“确定”。
- 预览调测。在“预览调试 > 用户输入”中,可通过给变量赋值来查看效果。
图4 预览调测
- 调试完成后,单击“确定”,创建该数据指令。
父主题: 加工文本类数据集