更新时间:2024-10-23 GMT+08:00

发现敏感数据

完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。

敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。

前提条件

  • 已完成敏感数据规则组定义,请参考定义识别规则分组
  • 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据连接,请参考创建DataArts Studio数据连接
  • DLI敏感数据发现时,需要提前准备DLI通用队列。
  • 如需将识别的敏感数据自动同步到数据地图组件,则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。
  • 敏感数据同步到数据地图组件时,如需将敏感数据的分类同步成功,需要同时满足如下前提:

约束与限制

  • 当前仅支持对数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据源进行敏感数据识别,且仅支持标准数仓类型的DWS数据源。
  • 当前仅DLI和DWS类型的敏感数据发现任务支持按照通配符匹配数据表或全部数据表进行敏感数据识别,仅DLI类型的敏感数据发现任务支持配置资源规格(如果配置资源大于可用资源,任务可能失败)。
  • 仅DWS敏感数据发现任务支持断点续扫和日志展示任务进度。
  • 敏感数据识别过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。
  • 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此字段密级取多个识别规则的最高密级,字段分类允许有多个。
  • 敏感数据识别任务运行后,会为识别到的敏感字段生成相应密级和分类,默认不会生成数据表密级。在手动勾选任务中的“根据数据识别结果更新数据目录/数据地图中数据表密级”选项后,才会生成数据表密级,数据表密级取敏感字段的最高密级。
  • 当前敏感数据同步仅支持同步到数据地图组件。不支持将识别到的敏感数据同步到数据目录组件,且数据目录组件也不再支持手动新增、编辑敏感数据的密级和分类信息。
  • 敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

创建敏感数据发现任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的敏感数据发现,进入敏感数据发现页面。

    图1 进入敏感数据发现页面

  3. 单击“新建”,在弹出的窗口中新建发现任务页面,输入基本信息,参数配置参考表1

    图2 新建发现任务参数配置

    创建敏感数据发现任务参数配置说明:
    表1 配置任务参数

    参数名

    参数说明

    基本信息配置

    *任务名称

    标识敏感数据发现任务,为便于任务管理,建议名称中包含要识别的数据表和使用的规则组。

    任务描述

    为更好地识别敏感数据发现任务,此处加以描述信息。

    *数据源类型

    从下拉列表中选择已创建的数据源类型。

    *数据连接

    所选数据连接类型中已创建数据连接,支持从下拉列表中选择。

    若未创建请参考创建DataArts Studio数据连接新建连接。

    *数据库

    呈现待扫描的数据库。单击数据库后的“设置”,设置待扫描的数据库范围。单击“清除”,可对已选择的数据库进行修改。

    *数据表

    • 对于DLI和DWS类型的敏感数据发现任务,您需要设置选择表的方式,当前支持手动筛选、通配符匹配和全部三种方式。
      • 手动筛选:即手动在数据表列表中选择需要进行敏感发现任务的表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

        手动筛选适用于需要敏感数据发现的目标表较少的情况。

      • 通配符匹配:即通过输入匹配规则,按照通配符匹配目标表。单任务中匹配规则支持配置最多100条,以换行符分隔,每一行视作一条规则,规则中只能包含字母、数字、下划线(_)和通配符(*),例如

        匹配规则为test_*时,表示匹配以“test_”开头的表。您也可以通过测试窗口,验证匹配规则是否符合预期。

        通配符匹配适用于规则较多、结果表较多的情况。

      • 全部:无需筛选或输入规则,直接选择当前数据库下的所有表作为任务目标表。

        选择全部,适用于所选数据库下所有表的检索。

    • 对于MRS Hive类型的敏感数据发现任务,仅支持通过手动筛选方式选择目标表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

    采样条数

    DWS类型的任务支持配置目标表的采样条数,最大支持10000条。

    *计算队列

    数据源类型为DLI时,需要选择通用队列。该参数表示执行DLI作业时的通用队列。

    规则配置

    *识别规则组

    从下拉列表中选择数据识别规则组,若未定义请参考定义识别规则分组新建。

    选择识别规则组后,会展示组内的识别规则详情,内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段。需要注意的是,不同规则组包含同一规则时,则需要该规则识别阈值相同。

    手动同步数据识别结果

    敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

    调度信息配置

    单次调度

    选择单次调度时,敏感数据发现任务仅运行一次。

    周期调度

    选择周期调度时,敏感数据发现任务按照所选调度周期运行。

    • 调度日期:

      调度任务的生效时间段。

    • 调度周期:

      选择调度任务的执行周期,并配置相关参数。

      • 分:选择调度开始时间和结束时间,配置间隔的分钟时长。
      • 小时:选择调度开始时间和结束时间,配置间隔的小时时长。
      • 天:配置每日调度时间。
      • 周:选择星期几启动调度,配置调度具体时间。
      • 月:选择几号启动调度,配置调度具体时间。

      例如:选择调度周期是周,选择具体时间为15:52,时间选择为星期二。则在调度日期范围内,每周二的15点52分会执行任务。

    • 立即启动:勾选复选框,则表示立即启动此调度任务。

    计算资源规格

    资源规格

    在DLI Spark资源较为充足的情况下,您可以通过配置Spark任务资源,加快敏感数据发现任务的执行速度。

    系统提供3种默认资源规格供您选择,默认A第一种,您也可以自行调整。

    说明:

    如果申请资源大于可用资源,任务可能会失败!

    • A(8核32G内存;Executor内存:4G,Executors个数:6个,Executor CPU数:1个,Driver CPU数:2个,Driver内存:7G)
    • B(16核64G内存;Executor内存:8G,Executors个数:7个,Executor CPU数:2个,Driver CPU数:2个,Driver内存:7G)
    • C(32核128G内存;Executor内存:8G,Executors个数:14个,Executor CPU数:2个,Driver CPU数:4个,Driver内存:15G)
    说明:

    Spark资源并行度由Executor数量和Executor CPU核数共同决定。任务可并行执行的最大Task数量=Executor个数 * Executor CPU核数。您可以根据DLI队列资源合理规划计算资源规格。

    需要注意的是,Spark任务执行需要driver、executor等多个角色共同调度完成,因此“Executor个数*Executor CPU核数”要小于队列的计算资源CU数,避免其他Spark任务角色无法启动。

    Spark作业参数计算公式:

    • CU数=driver CPU核数+Executor个数*Executor CPU核数
    • 内存数=driver内存+(Executor个数*Executor内存)

    Executor内存

    代表每个Executor的内存。通常建议Executor CPU核数:Executor内存=1:4。

    GB输入值必须在0到16之间,MB输入值必须在0到16,384之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor CPU核数

    用于设置作业申请的每个Executor的CPU核数,决定每个Executor并行执行Task的能力。

    输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor个数

    用于设置作业申请的Executor的数量。输入值必须在0到100之间。注意,如申请资源大于可用资源,任务可能失败。

    driver CPU核数

    用于设置driver CPU核数。输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    driver内存

    用于设置driver内存大小,通常建议即driver CPU核数:driver内存=1:4。GB输入值必须在0到16之间,MB输入值必须在0到16384之间。注意,如申请资源大于可用资源,任务可能失败。

  4. 单击“确定”,完成创建敏感数据发现任务。

    如果敏感数据发现任务执行成功后,界面不显示执行结果,并且在查看运行日志时发现无匹配信息,这种情况下说明执行该任务时没有发现任何敏感数据。

相关操作

  • 运行或调度任务:在敏感数据发现页面,单击对应任务操作栏中的“运行”“更多 > 启动调度”,运行或调度任务。

    您可以通过调度周期区分该任务是单次调度还是周期调度任务。

    DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,会运行失败。只有DAYU Administrator、Tenant Administrator或者数据安全管理员才能运行或调度未勾选“手动同步数据识别结果”参数的任务。

  • 编辑任务:在敏感数据发现页面,单击对应任务操作栏中的“编辑”,即可编辑敏感数据发现任务。

    运行状态为正在“运行中”的任务不允许被编辑。

  • 删除任务:在敏感数据发现页面,单击对应任务操作栏中的“更多 > 删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。

    运行状态为正在“运行中”的任务不允许被删除。

    • 删除敏感数据发现任务会删除对应任务的识别结果,请谨慎操作。
    • 删除操作无法撤销,请谨慎操作。
  • 查看运行实例日志:在敏感数据发现页面,找到需要查看实例的任务,单击展开,即可找到运行实例。随后单击“操作 > 查看日志”,查看运行实例日志。

    运行失败可通过日志排查失败原因,问题修正后尝试重新运行。如果仍运行失败,请联系技术支持人员协助处理。