计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

发现敏感数据

更新时间:2025-02-27 GMT+08:00

完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。

说明:

敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。

前提条件

  • 已完成敏感数据规则组定义,请参考定义识别规则分组
  • 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据连接,请参考创建DataArts Studio数据连接
  • DLI敏感数据发现时,需要提前准备DLI通用队列,当前暂不支持Spark版本为3.3.1的通用队列。
  • 如需将识别的敏感数据自动同步到数据地图组件,则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。
  • 敏感数据同步到数据地图组件时,如需将敏感数据的分类同步成功,需要同时满足如下前提:

约束与限制

  • 当前仅支持对数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据源进行敏感数据识别,且仅支持标准数仓类型的DWS数据源。
  • DLI敏感数据发现任务暂不支持Spark版本为3.3.1的通用队列。
  • 当前仅DLI和DWS类型的敏感数据发现任务支持按照通配符匹配数据表或全部数据表进行敏感数据识别,仅DLI类型的敏感数据发现任务支持配置资源规格(如果配置资源大于可用资源,任务可能失败)。
  • 仅DWS敏感数据发现任务支持断点续扫和日志展示任务进度。
  • 敏感数据识别过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。
  • 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此字段密级取多个识别规则的最高密级,字段分类允许有多个。
  • 敏感数据识别任务运行后,会为识别到的敏感字段生成相应密级和分类,默认不会生成数据表密级。在手动勾选任务中的“根据数据识别结果更新数据目录/数据地图中数据表密级”选项后,才会生成数据表密级,数据表密级取敏感字段的最高密级。
  • 当前敏感数据同步仅支持同步到数据地图组件。不支持将识别到的敏感数据同步到数据目录组件,且数据目录组件也不再支持手动新增、编辑敏感数据的密级和分类信息。
  • 敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

创建敏感数据发现任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的敏感数据发现,进入敏感数据发现页面。

    图1 进入敏感数据发现页面

  3. 单击“新建”,在弹出的窗口中新建发现任务页面,输入基本信息,参数配置参考表1

    图2 新建发现任务参数配置

    创建敏感数据发现任务参数配置说明:
    表1 配置任务参数

    参数名

    参数说明

    基本信息配置

    *任务名称

    标识敏感数据发现任务,为便于任务管理,建议名称中包含要识别的数据表和使用的规则组。

    任务描述

    为更好地识别敏感数据发现任务,此处加以描述信息。

    *数据源类型

    从下拉列表中选择已创建的数据源类型。

    *数据连接

    所选数据连接类型中已创建数据连接,支持从下拉列表中选择。

    若未创建请参考创建DataArts Studio数据连接新建连接。

    *数据库

    呈现待扫描的数据库。单击数据库后的“设置”,设置待扫描的数据库范围。单击“清除”,可对已选择的数据库进行修改。

    *数据表

    • 对于DLI和DWS类型的敏感数据发现任务,您需要设置选择表的方式,当前支持手动筛选、通配符匹配和全部三种方式。
      • 手动筛选:即手动在数据表列表中选择需要进行敏感发现任务的表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

        手动筛选适用于需要敏感数据发现的目标表较少的情况。

      • 通配符匹配:即通过输入匹配规则,按照通配符匹配目标表。单任务中匹配规则支持配置最多100条,以换行符分隔,每一行视作一条规则,规则中只能包含字母、数字、下划线(_)和通配符(*),例如

        匹配规则为test_*时,表示匹配以“test_”开头的表。您也可以通过测试窗口,验证匹配规则是否符合预期。

        通配符匹配适用于规则较多、结果表较多的情况。

      • 全部:无需筛选或输入规则,直接选择当前数据库下的所有表作为任务目标表。

        选择全部,适用于所选数据库下所有表的检索。

    • 对于MRS Hive类型的敏感数据发现任务,仅支持通过手动筛选方式选择目标表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

    采样条数

    DWS类型的任务支持配置目标表的采样条数,最大支持10000条。

    *计算队列

    数据源类型为DLI时,需要选择通用队列。该参数表示执行DLI作业时的通用队列。

    说明:

    暂不支持Spark版本为3.3.1的通用队列。

    规则配置

    *识别规则组

    从下拉列表中选择数据识别规则组,若未定义请参考定义识别规则分组新建。

    选择识别规则组后,会展示组内的识别规则详情,内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段。需要注意的是,不同规则组包含同一规则时,则需要该规则识别阈值相同。

    手动同步数据识别结果

    敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

    调度信息配置

    单次调度

    选择单次调度时,敏感数据发现任务仅运行一次。

    周期调度

    选择周期调度时,敏感数据发现任务按照所选调度周期运行。

    • 调度日期:

      调度任务的生效时间段。

    • 调度周期:

      选择调度任务的执行周期,并配置相关参数。

      • 分:选择调度开始时间和结束时间,配置间隔的分钟时长。
      • 小时:选择调度开始时间和结束时间,配置间隔的小时时长。
      • 天:配置每日调度时间。
      • 周:选择星期几启动调度,配置调度具体时间。
      • 月:选择几号启动调度,配置调度具体时间。

      例如:选择调度周期是周,选择具体时间为15:52,时间选择为星期二。则在调度日期范围内,每周二的15点52分会执行任务。

    • 立即启动:勾选复选框,则表示立即启动此调度任务。

    计算资源规格

    资源规格

    在DLI Spark资源较为充足的情况下,您可以通过配置Spark任务资源,加快敏感数据发现任务的执行速度。

    系统提供3种默认资源规格供您选择,默认A第一种,您也可以自行调整。

    说明:

    如果申请资源大于可用资源,任务可能会失败!

    • A(8核32G内存;Executor内存:4G,Executors个数:6个,Executor CPU数:1个,Driver CPU数:2个,Driver内存:7G)
    • B(16核64G内存;Executor内存:8G,Executors个数:7个,Executor CPU数:2个,Driver CPU数:2个,Driver内存:7G)
    • C(32核128G内存;Executor内存:8G,Executors个数:14个,Executor CPU数:2个,Driver CPU数:4个,Driver内存:15G)
    说明:

    Spark资源并行度由Executor数量和Executor CPU核数共同决定。任务可并行执行的最大Task数量=Executor个数 * Executor CPU核数。您可以根据DLI队列资源合理规划计算资源规格。

    需要注意的是,Spark任务执行需要driver、executor等多个角色共同调度完成,因此“Executor个数*Executor CPU核数”要小于队列的计算资源CU数,避免其他Spark任务角色无法启动。

    Spark作业参数计算公式:

    • CU数=driver CPU核数+Executor个数*Executor CPU核数
    • 内存数=driver内存+(Executor个数*Executor内存)

    Executor内存

    代表每个Executor的内存。通常建议Executor CPU核数:Executor内存=1:4。

    GB输入值必须在0到16之间,MB输入值必须在0到16,384之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor CPU核数

    用于设置作业申请的每个Executor的CPU核数,决定每个Executor并行执行Task的能力。

    输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor个数

    用于设置作业申请的Executor的数量。输入值必须在0到100之间。注意,如申请资源大于可用资源,任务可能失败。

    driver CPU核数

    用于设置driver CPU核数。输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    driver内存

    用于设置driver内存大小,通常建议即driver CPU核数:driver内存=1:4。GB输入值必须在0到16之间,MB输入值必须在0到16384之间。注意,如申请资源大于可用资源,任务可能失败。

  4. 单击“确定”,完成创建敏感数据发现任务。

    说明:

    如果敏感数据发现任务执行成功后,界面不显示执行结果,并且在查看运行日志时发现无匹配信息,这种情况下说明执行该任务时没有发现任何敏感数据。

相关操作

  • 运行或调度任务:在敏感数据发现页面,单击对应任务操作栏中的“运行”“更多 > 启动调度”,运行或调度任务。

    您可以通过调度周期区分该任务是单次调度还是周期调度任务。

    说明:

    DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,会运行失败。只有DAYU Administrator、Tenant Administrator或者数据安全管理员才能运行或调度未勾选“手动同步数据识别结果”参数的任务。

  • 编辑任务:在敏感数据发现页面,单击对应任务操作栏中的“编辑”,即可编辑敏感数据发现任务。

    运行状态为正在“运行中”的任务不允许被编辑。

  • 删除任务:在敏感数据发现页面,单击对应任务操作栏中的“更多 > 删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。

    运行状态为正在“运行中”的任务不允许被删除。

    说明:
    • 删除敏感数据发现任务会删除对应任务的识别结果,请谨慎操作。
    • 删除操作无法撤销,请谨慎操作。
  • 查看运行实例日志:在敏感数据发现页面,找到需要查看实例的任务,单击展开,即可找到运行实例。随后单击“操作 > 查看日志”,查看运行实例日志。

    运行失败可通过日志排查失败原因,问题修正后尝试重新运行。如果仍运行失败,请联系技术支持人员协助处理。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容