更新时间:2026-03-12 GMT+08:00
分享

数据精炼快速入门

业务场景

指定的文本数据集中存在个人敏感信息(电话号码、邮箱信息、车牌号码),现在需要将文本数据的敏感信息做脱敏处理。

通过数据精炼任务,完成敏感信息的脱敏。

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  3. 已申请到数据精炼过程要使用到的计算资源。

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。

计费说明

数据连接计费涉及到数据存储OBS计费,具体可参考数据管理计费项

创建数据精炼步骤

数据精炼业务流程整体如图1所示。

图1 数据精炼流程
  1. 前往ModelArts管理控制台
  2. 准备数据集。数据精炼支持文本、图片、视频类数据集作为输入数据,数据导入可参考数据连接提前将数据导入到ModelArts平台,也可使用ModelArts平台预置数据集。根据本案例场景,可以选择一个包含个人相关信息的文本数据。
  3. 在控制台左侧导航栏选择“数据准备 > 数据精炼”,打开“创建智能精炼”工作区,如图2所示。
    图2 智能精炼
  4. 创建智能精炼任务。在数据精炼工作区右上方单击“创建智能精炼”按钮,打开“创建智能精炼”配置页配置智能精炼任务相关信息。配置信息如下:
    • 基本信息:配置任务名称和描述信息。任务名称为必选,描述信息为可选。
      图3 配置基本信息

      说明:

      任务名称:命名默认为data-refine-年月日时分秒,如:data-refine-20260226084902,也可自定义名称,命名要求如下:

      • 命名长度:2~64字符。
      • 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。

      描述:无格式要求,长度不超过200字符,内容可选填。

    • 选择数据集。数据集可以选择ModelArts预置数据,也可以选择我的数据。当前支持输入数据集模态为文本、图片、视频类。本案例选择类型为“单轮问答”的文本类数据集。
      图4 选择数据集
    • 选择精炼模板。ModelArts预置了常用数据精炼模板,精炼模板根据使用场景将常用的业务处理算子及各算子的参数配置完毕,您可以直接使用。如果您的使用场景不是精炼模板包含的业务,可不选择精炼模板,直接单击“下一步”。
      图5 精炼模板
  5. 选择并配置相关算子。本案例中需要对文本做脱敏处理,选择“数据转换 > 个人信息脱敏”算子。选择后,在工作区出现个人数据脱敏的数据算子编排区域。在个人脱敏算子中选择手机号码、邮箱地址、国内车牌号脱敏。选择完成后,右下角单击“下一步”。
    图6 个人脱敏算子配置
  6. 配置生成数据集。需要配置输入数据集名称、存储地址、数据集属性(可选)、描述信息(可选)。
    图7 生成数据集
  7. 数据集填写完成后,配置“立即上线数据集”。本案例打开数据上线开关。
    • 选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为上线状态,可以被下游模型训练等作业直接使用。
    • 不选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。
    图8 选择“立即上线数据集”
  8. 配置“格式转换”。如果数据集需要转为开源的AlpacaShareGPT格式以支持开源模型的预训练,则勾选格式转换开关,否则不勾选。本案例中不勾选。
    图9 格式转换
  9. 配置“资源配置”。数据算子在处理数据时,需要用到计算资源,针对处理场景和算子类型不同,需要用到CPU或NPU类资源,需要根据选择算子具体确认。本案例中使用公共资源池,并选择CPU资源,会涉及到CPU资源的计费,费用信息请以实际账单为准。配置完毕后单击右下角“确认”后,启动智能精炼任务。
    图10 资源配置
  10. 智能精炼任务完成后,生成的数据集可在控制台左侧选择“资产管理 > 数据 >我的数据”列表中查看。

相关文档