发现敏感数据

完成了敏感数据识别规则组定义后，就可以根据定义的规则来创建敏感数据识别任务，发现敏感数据，并将敏感数据同步到数据地图组件。

敏感数据发现任务运行后，为使该识别规则在静态脱敏任务中生效，必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”，使规则状态变更为“有效”。

前提条件

已完成敏感数据规则组定义，请参考定义识别规则分组。
已在管理中心创建数据仓库服务（DWS）、数据湖探索（DLI）、MapReduce服务（MRS Hive）类型的数据连接，请参考创建DataArts Studio数据连接。
如需将识别的敏感数据自动同步到数据地图组件，则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。
敏感数据同步到数据地图组件时，如需将敏感数据的分类同步成功，需要同时满足如下前提：
- 已在数据目录组件，对数据表成功进行过元数据采集，详见元数据采集任务。
- 管理中心组件对应的数据连接，已开启“元数据实时同步”功能，详见创建DataArts Studio数据连接。

约束与限制

当前仅支持对数据仓库服务（DWS）、数据湖探索（DLI）、MapReduce服务（MRS Hive）类型的数据源进行敏感数据识别，且仅支持标准数仓类型的DWS数据源。
当前仅DLI和DWS类型的敏感数据发现任务支持按照通配符匹配数据表或全部数据表进行敏感数据识别，仅DLI类型的敏感数据发现任务支持配置资源规格（如果配置资源大于可用资源，任务可能失败）。
仅DWS敏感数据发现任务支持断点续扫和日志展示任务进度。
HTAP的DWS集群不支持使用敏感发现任务进行敏感数据的检测发现。
敏感数据识别过程中，如果规则为内容识别类型（即内置规则和内容识别类型的自定义规则），则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值（默认80%）时，才认为该字段为敏感字段，并为之匹配相应密级和分类。
敏感数据识别过程中，当某个字段同时匹配到识别规则组中的多个识别规则时，此字段密级取多个识别规则的最高密级，字段分类允许有多个。
敏感数据识别任务运行后，会为识别到的敏感字段生成相应密级和分类，默认不会生成数据表密级。在手动勾选任务中的“根据数据识别结果更新数据目录/数据地图中数据表密级”选项后，才会生成数据表密级，数据表密级取敏感字段的最高密级。
当前敏感数据同步仅支持同步到数据地图组件。不支持将识别到的敏感数据同步到数据目录组件，且数据目录组件也不再支持手动新增、编辑敏感数据的密级和分类信息。
敏感数据同步的权限要求较高，仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
- 自动同步：创建敏感数据发现任务，默认不勾选任务中的“手动同步数据识别结果”参数时，会自动同步敏感数据到数据地图组件。
- 手动同步：创建敏感数据发现任务，勾选任务中的“手动同步数据识别结果”参数时，表示取消敏感数据自动同步。待任务运行成功后，需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。
因此，非DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户创建敏感数据发现任务时，必须勾选任务中的“手动同步数据识别结果”参数，才能创建成功。另外，当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时，也会运行失败。

创建敏感数据发现任务

登录DataArts Studio管理控制台。

详情请参考访问DataArts Studio实例控制台。
在DataArts Studio控制台首页，选择对应工作空间的“数据安全”模块，进入数据安全页面。
单击左侧导航树中的“敏感数据识别 > 敏感数据发现”，进入敏感数据发现页面。

图1 进入敏感数据发现页面

单击“新建”，在弹出的窗口中新建发现任务页面，输入基本信息，参数配置参考表1。

图2 新建发现任务参数配置
点击放大

创建敏感数据发现任务参数配置说明：

表1 配置任务参数
参数名	参数说明
基本信息配置
*任务名称	标识敏感数据发现任务，为便于任务管理，建议名称中包含要识别的数据表和使用的规则组。
任务描述	为更好地识别敏感数据发现任务，此处加以描述信息。
*数据源类型	从下拉列表中选择已创建的数据源类型。
*数据连接	所选数据连接类型中已创建数据连接，支持从下拉列表中选择。若未创建请参考创建DataArts Studio数据连接新建连接。
*数据库	呈现待扫描的数据库。单击数据库后的“设置”，设置待扫描的数据库范围。单击“清除”，可对已选择的数据库进行修改。
*数据表	对于DLI和DWS类型的敏感数据发现任务，您需要设置选择表的方式，当前支持手动筛选、通配符匹配和全部三种方式。手动筛选：即手动在数据表列表中选择需要进行敏感发现任务的表。手动筛选时，在表筛选窗口的搜索框中可以进行模糊匹配，如果需要全选表时仅支持分页全选。手动筛选适用于需要敏感数据发现的目标表较少的情况。通配符匹配：即通过输入匹配规则，按照通配符匹配目标表。单任务中匹配规则支持配置最多100条，以换行符分隔，每一行视作一条规则，规则中只能包含字母、数字、下划线（_）和通配符（），例如匹配规则为test_时，表示匹配以“test_”开头的表。您也可以通过测试窗口，验证匹配规则是否符合预期。通配符匹配适用于规则较多、结果表较多的情况。全部：无需筛选或输入规则，直接选择当前数据库下的所有表作为任务目标表。选择全部，适用于所选数据库下所有表的检索。对于MRS Hive类型的敏感数据发现任务，仅支持通过手动筛选方式选择目标表。手动筛选时，在表筛选窗口的搜索框中可以进行模糊匹配，如果需要全选表时仅支持分页全选。
采样条数	DWS类型的任务支持配置目标表的采样条数，最大支持10000条。
*计算队列	数据源类型为MRS Hive时，本参数可选。计算队列可配置为MRS租户队列，可用队列支持在MRS控制台集群列表中单击集群名进入集群详情，在“租户管理 > 队列配置”中查看。执行引擎为DLI时，本参数必选。计算队列需配置为DLI通用队列。
读表超时时间	数据源类型为MRS Hive时，支持配置单表的读取超时时长，可配置范围为1-3600秒。当存在表扫描超时后，敏感数据发现任务将跳过该表，且不影响任务状态。如需查看跳过哪些表，需要在MRS界面查看MRS作业日志。
*spark版本	数据源类型为DLI时，需要选择Spark引擎版本，当前支持2.4.5、3.1.1和3.3.1版本。
*委托	受DLI限制，当使用Spark 3.3.1及以上版本的DLI队列执行作业时，需要您自行在IAM页面创建自定义委托（详见创建DLI自定义委托权限章节），然后再在此处进行选择。说明：新建的自定义委托名称不可与系统默认委托重复，即不可以是dli_admin_agency、dli_management_agency、dli_data_clean_agency。新建的自定义委托需被授予DLI自定义委托的四大场景权限，包括：允许DLI读写OBS将日志转储、允许DLI在访问DEW获取数据访问凭证、允许访问DLI Catalog元数据、允许访问LakeFormation Catalog元数据。各场景对应的具体权限请参考常见场景的委托权限策略章节。
任务提交配置
*任务提交方式	数据源类型为MRS Hive时，需要配置任务提交方式。默认为MRS-OPEN-API，可选择MRS-JOB-GATEWAY。
*Spark连接	任务提交方式为MRS-JOB-GATEWAY时，需要选择一个Spark连接集群。Spark连接集群需要与MRS Hive数据连接集群一致。
规则配置
*识别规则组	从下拉列表中选择数据识别规则组，若未定义请参考定义识别规则分组新建。选择识别规则组后，会展示组内的识别规则详情，内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值（默认80%）时，才认为该字段为敏感字段。需要注意的是，不同规则组包含同一规则时，则需要该规则识别阈值相同。
规则分类	从下拉列表中选择规则分类，若未定义请参考定义识别规则（部分高级特性）新建。选择规则分类后，会展示分类及其子分类绑定的识别规则详情，内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值（默认80%）时，才认为该字段为敏感字段。需要注意的是，不同分类包含同一规则时，则需要该规则识别阈值相同。
手动同步数据识别结果	敏感数据同步的权限要求较高，仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。自动同步：创建敏感数据发现任务，默认不勾选任务中的“手动同步数据识别结果”参数时，会自动同步敏感数据到数据地图组件。手动同步：创建敏感数据发现任务，勾选任务中的“手动同步数据识别结果”参数时，表示取消敏感数据自动同步。待任务运行成功后，需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。因此，非DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户创建敏感数据发现任务时，必须勾选任务中的“手动同步数据识别结果”参数，才能创建成功。另外，当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时，也会运行失败。
调度信息配置
单次调度	选择单次调度时，敏感数据发现任务仅运行一次。
周期调度	选择周期调度时，敏感数据发现任务按照所选调度周期运行。调度日期：调度任务的生效时间段。调度周期：选择调度任务的执行周期，并配置相关参数。分：选择调度开始时间和结束时间，配置间隔的分钟时长。小时：选择调度开始时间和结束时间，配置间隔的小时时长。天：配置每日调度时间。周：选择星期几启动调度，配置调度具体时间。月：选择几号启动调度，配置调度具体时间。例如：选择调度周期是周，选择具体时间为15:52，时间选择为星期二。则在调度日期范围内，每周二的15点52分会执行任务。立即启动：勾选复选框，则表示立即启动此调度任务。
资源规格	在DLI Spark资源较为充足的情况下，您可以通过配置Spark任务资源，加快敏感数据发现任务的执行速度。系统提供3种默认资源规格供您选择，默认A第一种，您也可以自行调整。说明：如果申请资源大于可用资源，任务可能会失败！ A（8核32G内存；Executor内存：4G，Executors个数：6个，Executor CPU数：1个，Driver CPU数：2个，Driver内存：7G） B（16核64G内存；Executor内存：8G，Executors个数：7个，Executor CPU数：2个，Driver CPU数：2个，Driver内存：7G） C（32核128G内存；Executor内存：8G，Executors个数：14个，Executor CPU数：2个，Driver CPU数：4个，Driver内存：15G）说明： Spark资源并行度由Executor数量和Executor CPU核数共同决定。任务可并行执行的最大Task数量=Executor个数 * Executor CPU核数。您可以根据DLI队列资源合理规划计算资源规格。需要注意的是，Spark任务执行需要driver、executor等多个角色共同调度完成，因此“Executor个数Executor CPU核数”要小于队列的计算资源CU数，避免其他Spark任务角色无法启动。 Spark作业参数计算公式： CU数=driver CPU核数+Executor个数Executor CPU核数内存数=driver内存+(Executor个数*Executor内存）
Executor内存	代表每个Executor的内存。通常建议Executor CPU核数：Executor内存=1：4。 GB输入值必须在0到16之间，MB输入值必须在0到16,384之间。注意，如申请资源大于可用资源，任务可能失败。
Executor CPU核数	用于设置作业申请的每个Executor的CPU核数，决定每个Executor并行执行Task的能力。输入值必须在0到4之间。注意，如申请资源大于可用资源，任务可能失败。
Executor个数	用于设置作业申请的Executor的数量。输入值必须在0到100之间。注意，如申请资源大于可用资源，任务可能失败。
driver CPU核数	用于设置driver CPU核数。输入值必须在0到4之间。注意，如申请资源大于可用资源，任务可能失败。
driver内存	用于设置driver内存大小，通常建议即driver CPU核数：driver内存=1：4。GB输入值必须在0到16之间，MB输入值必须在0到16384之间。注意，如申请资源大于可用资源，任务可能失败。