更新时间:2026-04-23 GMT+08:00
分享

数据精炼快速入门

业务场景

指定的文本数据集中存在个人敏感信息(电话号码、邮箱信息、车牌号码),现在需要将文本数据的敏感信息做脱敏处理。

通过数据精炼任务,完成敏感信息的脱敏。

前提条件

  • 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  • 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  • 已申请到数据精炼过程要使用到的计算资源。

约束限制

仅西南-贵阳一区域的新版控制台支持。

计费说明

按CPU算子实际执行时长或用量计费。

创建数据精炼

数据精炼业务流程整体如图1所示。

图1 数据精炼流程
  1. 登录ModelArts管理控制台,在控制台左侧导航栏选择“数据准备 > 数据精炼”
  2. 数据精炼页面右上方单击“创建智能精炼”,配置相关信息,单击“下一步”
    表1 创建智能精炼参数说明

    参数

    说明

    示例值

    基本信息

    名称

    默认为data-refine-年月日时分秒,您也可以自定义名称。名称需以中文、字母开头,以中文、字母、数字结尾,长度2~64的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    data-refine-20260423102952

    描述

    自定义数据精炼任务的描述。只包含中文、字母、数字、空格、中划线、下划线、逗号和句号。最大支持200个字符。

    -

    选择数据集

    数据集可以选择ModelArts预置数据,也可以选择我的数据。当前支持输入数据集模态为文本、图片、视频类。

    选择我的数据,需自行上传数据集。具体操作,请参见创建数据连接

    预置数据 code-alpaca

    精炼模板

    ModelArts预置了常用数据精炼模板,精炼模板根据使用场景将常用的业务处理算子及各算子的参数配置完毕,您可以直接使用。

    如果您的使用场景不是精炼模板包含的业务,可不选择精炼模板,直接单击“下一步”。

    单轮问答处理流程

  3. “添加算子”区域已默认配置了相关算子,您也可以按需修改,单击“保存并下一步”
    关于算子的详细说明,请参见管理数据精炼算子
    图2 添加算子
  4. 配置生成数据集和资源信息,单击“启动”
    表2 参数说明

    参数

    说明

    示例值

    生成数据集

    数据集名称

    自定义数据集的名称。名称需以中文、字母开头,以中文、字母、数字结尾,长度2~63的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    dataset

    存储地址

    输入OBS存储路径,或者单击图标,在“存储地址”对话框选择OBS存储路径,单击“确定”

    bucketName/dir/

    数据集属性

    按需配置数据集的属性,您可以按照行业、语言维度配置标签,也可以自定义标签。

    -

    描述

    只能包含中文、字母、数字、空格、中划线、下划线、逗号和句号。最大支持200个字符。

    -

    数据集状态

    已上线的数据集才可被下游模型开发与训练作业任务调用。

    • 开启“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为上线状态,可以被下游模型训练等作业直接使用。
    • 关闭“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。

    打开“立即上线数据集”

    资源配置

    资源池类型

    按需选择资源池类型。

    公共资源池

    执行 CPU 算子实例参考规格

    数据算子在处理数据时,需要用到计算资源,针对处理场景和算子类型不同,需要用到CPU或NPU类资源,请按需选择。

    NPU (1卡) | (24 vCPUs) | 内存 (192 GB)

    当数据精炼作业的“最近运行状态”变为“数据集生成成功”时,表示数据精炼作业运行结束,其生成的数据将存储至“资产 > 数据 > 我的数据”中。

后续操作

数据集上线后可以直接用于模型后续开发,例如模型训练模型评测等。

相关文档