数据精炼入门:一键完成数据精炼
场景介绍
为了降低用户的使用门槛并增强用户体验,ModelArts控制台推出了一键数据精炼案例。本文档帮助您快速上手华为ModelArts一键精炼功能,使用ModelArts一键精炼的“单轮问答处理流程”模板,自动剔除脏数据、去重并标准化格式,生成高纯净度的问答数据集,直接用于大语言模型微调训练。
如需对数据精炼有更深入的了解,请参考数据精炼。
前提条件
已完成华为云账号注册、实名认证及相关权限授权。具体操作,请参见一、前置准备:账号与权限。
约束限制
仅“西南-贵阳一”区域的控制台新版页面支持一键数据精炼。
计费说明
按CPU算子实际执行时长或用量计费。
操作步骤
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择,在“精选”区域中选择“单轮问答数据智能精炼”。单击卡片中的“一键精炼”进入创建页面。
- 在“创建精炼任务”面板,配置相关信息。 图1 创建精炼任务
表1 创建精炼任务参数说明 参数
说明
示例值
任务名称
必填,作业的名称。
系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:
- 支持2~64位字符。
- 以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线(-)或下划线(_)。
data-refine-20260421095116
模板名称
创建精炼任务使用的精炼模板,当前仅支持“单轮问答处理流程”,如需对精炼模板有更深入了解,请参考管理数据精炼模板。
单轮问答处理流程
选择数据集
创建一键精炼任务使用的原始数据集。本案例使用预置数据集。
预置数据集:code-alpaca
生成数据集名称
必填,生成数据集名称。
系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:
- 支持2~63位字符。
- 以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线(-)或下划线(_)。
pub_20260421_38663
存储地址
一键精炼任务生成数据集的OBS存储地址。您可以直接输入OBS存储路径或单击
图标选择存储地址。- 不支持选择跨区域(Region)的OBS桶。如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
- 只能选择对象存储服务(OBS)桶下的文件夹。
bucketName/dir/
资源配置
本案例仅支持使用公共资源池。关于资源池的介绍,请参见公共资源池和专属资源池的区别是什么。
公共资源池
执行CPU算子实例参考规格
推荐使用NPU (1卡) | (24 vCPUs) | 内存 (192 GB) 或更高配置。
NPU (1卡) | (24 vCPUs) | 内存 (192 GB)
- 确认配置和费用后,单击“确定”。跳转进入“数据精炼”页面。
数据精炼作业一般需要运行一段时间,在“数据精炼”页面,可以查看数据精炼作业的基本情况。
- 当数据精炼作业的“最近运行状态”变为“数据集生成成功”时,表示数据精炼作业运行结束,其生成的数据将存储至“资产 > 数据 > 我的数据”中。 图2 最新运行状态
图3 我的数据
- 当数据精炼作业的状态变为“运行失败”或“异常”时,可以单击数据精炼作业的名称进入详情页面,通过查看基本信息、运行详情、精炼结果、操作记录和资源占用等信息,进行问题定位。
- 当数据精炼作业的“最近运行状态”变为“数据集生成成功”时,表示数据精炼作业运行结束,其生成的数据将存储至“资产 > 数据 > 我的数据”中。
- 一键数据精炼成功后,在左侧导航栏选择“资产管理 > 数据”,单击“我的数据”页签,在数据集的操作列,单击“上线”。在“上线数据集”对话框,单击“确定”。