网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

发现敏感数据

更新时间:2024-10-23 GMT+08:00
分享

完成了敏感数据识别规则组定义后,就可以根据定义的规则来创建敏感数据识别任务,发现敏感数据,并将敏感数据同步到数据地图组件。

说明:

敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。

前提条件

  • 已完成敏感数据规则组定义,请参考定义识别规则分组
  • 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据连接,请参考创建DataArts Studio数据连接
  • DLI敏感数据发现时,需要提前准备DLI通用队列。
  • 如需将识别的敏感数据自动同步到数据地图组件,则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。
  • 敏感数据同步到数据地图组件时,如需将敏感数据的分类同步成功,需要同时满足如下前提:

约束与限制

  • 当前仅支持对数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据源进行敏感数据识别,且仅支持标准数仓类型的DWS数据源。
  • 当前仅DLI和DWS类型的敏感数据发现任务支持按照通配符匹配数据表或全部数据表进行敏感数据识别,仅DLI类型的敏感数据发现任务支持配置资源规格(如果配置资源大于可用资源,任务可能失败)。
  • 仅DWS敏感数据发现任务支持断点续扫和日志展示任务进度。
  • 敏感数据识别过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。
  • 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此字段密级取多个识别规则的最高密级,字段分类允许有多个。
  • 敏感数据识别任务运行后,会为识别到的敏感字段生成相应密级和分类,默认不会生成数据表密级。在手动勾选任务中的“根据数据识别结果更新数据目录/数据地图中数据表密级”选项后,才会生成数据表密级,数据表密级取敏感字段的最高密级。
  • 当前敏感数据同步仅支持同步到数据地图组件。不支持将识别到的敏感数据同步到数据目录组件,且数据目录组件也不再支持手动新增、编辑敏感数据的密级和分类信息。
  • 敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

创建敏感数据发现任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的敏感数据发现,进入敏感数据发现页面。

    图1 进入敏感数据发现页面

  3. 单击“新建”,在弹出的窗口中新建发现任务页面,输入基本信息,参数配置参考表1

    图2 新建发现任务参数配置

    创建敏感数据发现任务参数配置说明:
    表1 配置任务参数

    参数名

    参数说明

    基本信息配置

    *任务名称

    标识敏感数据发现任务,为便于任务管理,建议名称中包含要识别的数据表和使用的规则组。

    任务描述

    为更好地识别敏感数据发现任务,此处加以描述信息。

    *数据源类型

    从下拉列表中选择已创建的数据源类型。

    *数据连接

    所选数据连接类型中已创建数据连接,支持从下拉列表中选择。

    若未创建请参考创建DataArts Studio数据连接新建连接。

    *数据库

    呈现待扫描的数据库。单击数据库后的“设置”,设置待扫描的数据库范围。单击“清除”,可对已选择的数据库进行修改。

    *数据表

    • 对于DLI和DWS类型的敏感数据发现任务,您需要设置选择表的方式,当前支持手动筛选、通配符匹配和全部三种方式。
      • 手动筛选:即手动在数据表列表中选择需要进行敏感发现任务的表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

        手动筛选适用于需要敏感数据发现的目标表较少的情况。

      • 通配符匹配:即通过输入匹配规则,按照通配符匹配目标表。单任务中匹配规则支持配置最多100条,以换行符分隔,每一行视作一条规则,规则中只能包含字母、数字、下划线(_)和通配符(*),例如

        匹配规则为test_*时,表示匹配以“test_”开头的表。您也可以通过测试窗口,验证匹配规则是否符合预期。

        通配符匹配适用于规则较多、结果表较多的情况。

      • 全部:无需筛选或输入规则,直接选择当前数据库下的所有表作为任务目标表。

        选择全部,适用于所选数据库下所有表的检索。

    • 对于MRS Hive类型的敏感数据发现任务,仅支持通过手动筛选方式选择目标表。手动筛选时,在表筛选窗口的搜索框中可以进行模糊匹配,如果需要全选表时仅支持分页全选。

    采样条数

    DWS类型的任务支持配置目标表的采样条数,最大支持10000条。

    *计算队列

    数据源类型为DLI时,需要选择通用队列。该参数表示执行DLI作业时的通用队列。

    规则配置

    *识别规则组

    从下拉列表中选择数据识别规则组,若未定义请参考定义识别规则分组新建。

    选择识别规则组后,会展示组内的识别规则详情,内置规则以及包含内容匹配的自定义规则支持配置规则阈值。阈值表示仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段。需要注意的是,不同规则组包含同一规则时,则需要该规则识别阈值相同。

    手动同步数据识别结果

    敏感数据同步的权限要求较高,仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。
    • 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。
    • 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,表示取消敏感数据自动同步。待任务运行成功后,需要手动在“敏感数据分布>手工修正”页面单击“数据同步”将敏感数据同步到数据地图组件中。

    因此,非DAYU Administrator、Tenant Administrator或者数据安全管理员普通用户创建敏感数据发现任务时,必须勾选任务中的“手动同步数据识别结果”参数,才能创建成功。另外,当普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,也会运行失败。

    调度信息配置

    单次调度

    选择单次调度时,敏感数据发现任务仅运行一次。

    周期调度

    选择周期调度时,敏感数据发现任务按照所选调度周期运行。

    • 调度日期:

      调度任务的生效时间段。

    • 调度周期:

      选择调度任务的执行周期,并配置相关参数。

      • 分:选择调度开始时间和结束时间,配置间隔的分钟时长。
      • 小时:选择调度开始时间和结束时间,配置间隔的小时时长。
      • 天:配置每日调度时间。
      • 周:选择星期几启动调度,配置调度具体时间。
      • 月:选择几号启动调度,配置调度具体时间。

      例如:选择调度周期是周,选择具体时间为15:52,时间选择为星期二。则在调度日期范围内,每周二的15点52分会执行任务。

    • 立即启动:勾选复选框,则表示立即启动此调度任务。

    计算资源规格

    资源规格

    在DLI Spark资源较为充足的情况下,您可以通过配置Spark任务资源,加快敏感数据发现任务的执行速度。

    系统提供3种默认资源规格供您选择,默认A第一种,您也可以自行调整。

    说明:

    如果申请资源大于可用资源,任务可能会失败!

    • A(8核32G内存;Executor内存:4G,Executors个数:6个,Executor CPU数:1个,Driver CPU数:2个,Driver内存:7G)
    • B(16核64G内存;Executor内存:8G,Executors个数:7个,Executor CPU数:2个,Driver CPU数:2个,Driver内存:7G)
    • C(32核128G内存;Executor内存:8G,Executors个数:14个,Executor CPU数:2个,Driver CPU数:4个,Driver内存:15G)
    说明:

    Spark资源并行度由Executor数量和Executor CPU核数共同决定。任务可并行执行的最大Task数量=Executor个数 * Executor CPU核数。您可以根据DLI队列资源合理规划计算资源规格。

    需要注意的是,Spark任务执行需要driver、executor等多个角色共同调度完成,因此“Executor个数*Executor CPU核数”要小于队列的计算资源CU数,避免其他Spark任务角色无法启动。

    Spark作业参数计算公式:

    • CU数=driver CPU核数+Executor个数*Executor CPU核数
    • 内存数=driver内存+(Executor个数*Executor内存)

    Executor内存

    代表每个Executor的内存。通常建议Executor CPU核数:Executor内存=1:4。

    GB输入值必须在0到16之间,MB输入值必须在0到16,384之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor CPU核数

    用于设置作业申请的每个Executor的CPU核数,决定每个Executor并行执行Task的能力。

    输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    Executor个数

    用于设置作业申请的Executor的数量。输入值必须在0到100之间。注意,如申请资源大于可用资源,任务可能失败。

    driver CPU核数

    用于设置driver CPU核数。输入值必须在0到4之间。注意,如申请资源大于可用资源,任务可能失败。

    driver内存

    用于设置driver内存大小,通常建议即driver CPU核数:driver内存=1:4。GB输入值必须在0到16之间,MB输入值必须在0到16384之间。注意,如申请资源大于可用资源,任务可能失败。

  4. 单击“确定”,完成创建敏感数据发现任务。

    说明:

    如果敏感数据发现任务执行成功后,界面不显示执行结果,并且在查看运行日志时发现无匹配信息,这种情况下说明执行该任务时没有发现任何敏感数据。

相关操作

  • 运行或调度任务:在敏感数据发现页面,单击对应任务操作栏中的“运行”“更多 > 启动调度”,运行或调度任务。

    您可以通过调度周期区分该任务是单次调度还是周期调度任务。

    说明:

    DAYU Administrator、Tenant Administrator或者数据安全管理员的普通用户运行或调度未勾选“手动同步数据识别结果”参数的任务时,会运行失败。只有DAYU Administrator、Tenant Administrator或者数据安全管理员才能运行或调度未勾选“手动同步数据识别结果”参数的任务。

  • 编辑任务:在敏感数据发现页面,单击对应任务操作栏中的“编辑”,即可编辑敏感数据发现任务。

    运行状态为正在“运行中”的任务不允许被编辑。

  • 删除任务:在敏感数据发现页面,单击对应任务操作栏中的“更多 > 删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。

    运行状态为正在“运行中”的任务不允许被删除。

    说明:
    • 删除敏感数据发现任务会删除对应任务的识别结果,请谨慎操作。
    • 删除操作无法撤销,请谨慎操作。
  • 查看运行实例日志:在敏感数据发现页面,找到需要查看实例的任务,单击展开,即可找到运行实例。随后单击“操作 > 查看日志”,查看运行实例日志。

    运行失败可通过日志排查失败原因,问题修正后尝试重新运行。如果仍运行失败,请联系技术支持人员协助处理。

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容