文档首页/ 魔坊(ModelArts)模型训推平台/ 快速入门/ 数据精炼入门:一键完成数据精炼
更新时间:2026-05-12 GMT+08:00
分享

数据精炼入门:一键完成数据精炼

场景介绍

为了降低用户的使用门槛并增强用户体验,ModelArts控制台推出了一键数据精炼案例。本文档帮助您快速上手华为ModelArts一键精炼功能,使用ModelArts一键精炼的“单轮问答处理流程”模板,自动剔除脏数据、去重并标准化格式,生成高纯净度的问答数据集,直接用于大语言模型微调训练。

如需对数据精炼有更深入的了解,请参考数据精炼

前提条件

已完成华为云账号注册、实名认证及相关权限授权。具体操作,请参见一、前置准备:账号与权限

约束限制

“西南-贵阳一”区域的控制台新版页面支持一键数据精炼。

计费说明

按CPU算子实际执行时长或用量计费。

操作步骤

  1. 登录ModelArts管理控制台
  2. 在左侧导航栏中,选择快速入门,在“精选”区域中选择“单轮问答数据智能精炼”。单击卡片中的“一键精炼”进入创建页面。
  3. “创建精炼任务”面板,配置相关信息。

    图1 创建精炼任务
    表1 创建精炼任务参数说明

    参数

    说明

    示例值

    任务名称

    必填,作业的名称。

    系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:

    • 支持2~64位字符。
    • 以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线(-)或下划线(_)。

    data-refine-20260421095116

    模板名称

    创建精炼任务使用的精炼模板,当前仅支持“单轮问答处理流程”,如需对精炼模板有更深入了解,请参考管理数据精炼模板

    单轮问答处理流程

    选择数据集

    创建一键精炼任务使用的原始数据集。本案例使用预置数据集。

    预置数据集:code-alpaca

    生成数据集名称

    必填,生成数据集名称。

    系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:

    • 支持2~63位字符。
    • 以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线(-)或下划线(_)。

    pub_20260421_38663

    存储地址

    一键精炼任务生成数据集的OBS存储地址。您可以直接输入OBS存储路径或单击图标选择存储地址。

    • 不支持选择跨区域(Region)的OBS桶。如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
    • 只能选择对象存储服务(OBS)桶下的文件夹。

    bucketName/dir/

    资源配置

    本案例仅支持使用公共资源池。关于资源池的介绍,请参见公共资源池和专属资源池的区别是什么

    公共资源池

    执行CPU算子实例参考规格

    推荐使用NPU (1卡) | (24 vCPUs) | 内存 (192 GB) 或更高配置。

    NPU (1卡) | (24 vCPUs) | 内存 (192 GB)

  4. 确认配置和费用后,单击“确定”。跳转进入“数据精炼”页面。

    数据精炼作业一般需要运行一段时间,在“数据精炼”页面,可以查看数据精炼作业的基本情况

    • 当数据精炼作业的“最近运行状态”变为“数据集生成成功”时,表示数据精炼作业运行结束,其生成的数据将存储至“资产 > 数据 > 我的数据”中。
      图2 最新运行状态
      图3 我的数据
    • 当数据精炼作业的状态变为“运行失败”“异常”时,可以单击数据精炼作业的名称进入详情页面,通过查看基本信息、运行详情、精炼结果、操作记录和资源占用等信息,进行问题定位。

  5. 一键数据精炼成功后,在左侧导航栏选择“资产管理 > 数据”,单击“我的数据”页签,在数据集的操作列,单击“上线”。在“上线数据集”对话框,单击“确定”

    数据集上线后可以直接用于模型后续开发,例如模型训练模型评测等。

相关文档