文档首页/ 数据治理中心 DataArts Studio/ 用户指南/ 数据安全/ 敏感数据识别/ 配置数据入湖检测规则(高级特性)
更新时间:2025-07-18 GMT+08:00

配置数据入湖检测规则(高级特性)

数据入湖检测规则可用于如下场景的实时敏感信息检测:

在新版本模式下仅当使用企业版时,才支持配置数据入湖检测规则。旧版本模式使用基础版及更高版本时即可支持。

前提条件

约束与限制

  • 数据集成(离线作业)的表数据迁移和数据安全敏感数据发现中的推荐识别场景下,仅支持MRS Hive、DWS、DLI和RDS MySQL数据源。
  • 数据集成(离线作业)的表敏感数据检测对表内容格式要求如下:
    • 表字段数量至多为500。
    • 对于字符串类型的表字段,仅会检测前1000个字符的敏感信息,超过1000字符部分会被截断。
  • 识别规则仅支持规则类型为正则表达式的内置规则或自定义规则,识别规则至多可以配置50条。

配置作业上移策略

如需将数据入湖检测规则应用到数据集成(离线作业)的表敏感数据实时检测中,则需开启并配置作业上移策略。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的数据识别规则,在数据识别规则页面中单击“数据入湖检测规则”,进入数据入湖检测规则页签。
  3. 在数据入湖检测规则页面中,作业上移策略配置参数说明请参见表1

    图1 配置数据入湖检测规则

    表1 作业上移策略配置参数

    参数名

    参数说明

    实时检测作业上移敏感信息

    是否开启在数据集成(离线作业)进行表数据迁移时的表敏感数据实时检测,默认关闭。

    敏感信息拦截策略

    在数据集成(离线作业)作业中,如果识别到了敏感信息的拦截策略:

    • 强拦截:只要检测到敏感信息,就无法保存作业。
    • 弱拦截:对配置了加解密或脱敏处理的敏感字段不做拦截。
    • 不拦截:无处理策略,不做任何拦截。

    采样条数

    在数据集成(离线作业)作业中,表示对表字段进行检测时采样前多少行,最多为100行。

    同步

    单击同步按钮,将策略同步至数据集成(离线作业)。此处的规则策略需要同步至数据集成(离线作业)中才会生效。

配置文件检测策略

文件检测策略默认开启。如果您需要自定义配置,请参考如下步骤进行修改。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的数据识别规则,在数据识别规则页面中单击“数据入湖检测规则”,进入数据入湖检测规则页签。
  3. 数据入湖检测规则页面中,文件检测策略配置参数说明请参见表2

    图2 配置数据入湖检测规则
    表2 文件检测策略配置参数

    参数名

    参数说明

    空行处理策略

    如果采样字段中存在空行,配置空行的处理策略。默认为纳入计算。

    • 忽略:如果采样总行数M,其中敏感行数为N,则最终敏感信息比率计算为 N / M × 100%。
    • 纳入计算:如果采样总行数M,其中空行数量为m,敏感行数为N,则最终敏感信息比率计算为 N / (M - m) × 100%。

    采样条数

    在文件敏感数据实时检测中,表示对文件进行检测时采样前多少行,默认100行,最多为500行。

配置识别规则

  1. DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
  2. 单击左侧导航树中的数据识别规则,在数据识别规则页面中单击“数据入湖检测规则”,进入数据入湖检测规则页签。
  3. 在“数据入湖检测规则”页面中,单击配置规则。

    图3 数据入湖检测规则页面

    图4 配置数据入湖检测规则

  4. 在弹出的规则配置窗口中,选择所需的识别规则,单击“提交”完成规则选择。

    图5 配置规则

相关操作

  • 删除数据入湖检测规则:在数据入湖检测规则页面,单击对应识别规则操作栏中的“删除”,即可删除识别规则。当需要批量删除时,可以在勾选识别规则后,在列表上方单击“批量删除”。

    删除操作无法撤销,请谨慎操作。