更新时间:2024-02-22 GMT+08:00
分享

发现敏感数据

完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。

敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。

前提条件

  • 已完成敏感数据规则组定义,请参考定义识别规则分组
  • 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据连接,请参考新建数据连接
  • DLI敏感数据发现时,需要提前准备DLI通用队列。
  • 如需将识别的敏感数据自动同步到数据地图组件,则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。
  • 敏感数据同步到数据地图组件时,如需将敏感数据的分类同步成功,需要同时满足如下前提:
    • 已在数据目录组件,对数据表成功进行过元数据采集,详见元数据采集任务
    • 管理中心组件对应的数据连接,已开启“元数据实时同步”功能,详见新建数据连接

约束与限制

  • 当前仅支持对数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据源进行敏感数据识别,且仅支持标准数仓类型的DWS数据源。
  • 敏感数据识别时过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。
  • 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此字段密级取多个识别规则的最高密级,字段分类允许有多个。
  • 敏感数据识别任务运行后,会为识别到的敏感字段生成相应密级和分类,默认不会生成数据表密级。在手动勾选任务中的“根据数据识别结果更新数据目录/数据地图中数据表密级”选项后,才会生成数据表密级,数据表密级取敏感字段的最高密级。
  • 当前敏感数据同步仅支持同步到数据地图组件。不支持将识别到的敏感数据同步到数据目录组件,且数据目录组件也不再支持手动新增、编辑敏感数据的密级和分类信息。
  • 敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

创建敏感数据发现任务

  1. DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。

    图1 选择数据安全

  2. 单击左侧导航树中的敏感数据发现,进入敏感数据发现页面。

    图2 进入敏感数据发现页面

  3. 单击“新建”,在弹出的窗口中新建发现任务页面,输入基本信息,参数配置参考表1

    图3 新建发现任务参数配置

    创建敏感数据发现任务参数配置说明:
    表1 配置任务参数

    参数名

    参数说明

    基本信息配置

    *任务名称

    标识敏感数据发现任务,为便于任务管理,建议名称中包含要识别的数据表和使用的规则组。

    任务描述

    为更好地识别敏感数据发现任务,此处加以描述信息。

    *数据源类型

    从下拉列表中选择已创建的数据源类型。

    *数据连接

    所选数据连接类型中已创建数据连接,支持从下拉列表中选择。

    若未创建请参考新建数据连接新建连接。

    *数据库

    呈现待扫描的数据库和数据表。

    • 单击数据库后的“设置”,设置待扫描的数据库范围。
    • 单击数据表后的“设置”,设置待扫描的数据表范围。
    • 单击“清除”,可对已选择的数据库和数据表进行修改。

    *数据表

    *计算队列

    数据源类型为DLI时,需要选择通用队列。该参数表示执行DLI作业时的通用队列。

    规则配置

    *识别规则组

    从下拉列表中选择数据识别规则组,若未定义请参考定义识别规则分组新建。

    选择识别规则组后,会展示组内的识别规则详情,内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段。需要注意的是,不同规则组包含同一规则时,则需要该规则识别阈值相同。

    根据数据识别结果更新数据目录/数据地图中数据表密级

    敏感数据识别任务运行后,会为识别到的敏感字段生成密级和分类。默认此项不勾选,不生成数据表密级。

    勾选此项后,将生成对应数据表的密级,数据表的密级取敏感字段的最高密级。

    手动同步数据识别结果

    敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

    调度信息配置

    单次调度

    选择单次调度时,敏感数据发现任务仅运行一次。

    周期调度

    选择周期调度时,敏感数据发现任务按照所选调度周期运行。

    • 调度日期:

      调度任务的生效时间段。

    • 调度周期:

      选择调度任务的执行周期,并配置相关参数。

      • 分:选择调度开始时间和结束时间,配置间隔的分钟时长。
      • 小时:选择调度开始时间和结束时间,配置间隔的小时时长。
      • 天:配置每日调度时间。
      • 周:选择星期几启动调度,配置调度具体时间。
      • 月:选择几号启动调度,配置调度具体时间。

      例如:选择调度周期是周,选择具体时间为15:52,时间选择为星期二。则在调度日期范围内,每周二的15点52分会执行任务。

    • 立即启动:勾选复选框,则表示立即启动此调度任务。

  4. 单击“确定”,完成创建敏感数据发现任务。

    如果敏感数据发现任务执行成功后,界面不显示执行结果,并且在查看运行日志时发现无匹配信息,这种情况下说明执行该任务时没有发现任何敏感数据。

相关操作

  • 运行或调度任务:在敏感数据发现页面,单击对应任务操作栏中的“运行”“更多>启动调度”,运行或调度任务。

    您可以通过调度周期区分该任务是单次调度还是周期调度任务。

    非DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,会运行失败。只有DAYU Administrator、Tenant Administrator或者数据安全管理员才能运行或调度未勾选“手动同步数据识别结果”参数的任务。

  • 编辑任务:在敏感数据发现页面,单击对应任务操作栏中的“编辑”,即可编辑敏感数据发现任务。

    运行状态为正在“运行中”的任务不允许被编辑。

  • 删除任务:在敏感数据发现页面,单击对应任务操作栏中的“更多>删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。

    运行状态为正在“运行中”的任务不允许被删除。

    • 删除敏感数据发现任务会删除对应任务的识别结果,请谨慎操作。
    • 删除操作无法撤销,请谨慎操作。
  • 查看运行实例日志:在敏感数据发现页面,找到需要查看实例的任务,单击展开,即可找到运行实例。随后单击“操作 > 查看日志”,查看运行实例日志。

    运行失败可通过日志排查失败原因,问题修正后尝试重新运行。如果仍运行失败,请联系技术支持人员协助处理。

分享:

    相关文档

    相关产品