文档首页/ 数据安全中心 DSC/ 产品介绍/ 大模型数据安全防护场景功能特性
更新时间:2025-07-03 GMT+08:00
分享

大模型数据安全防护场景功能特性

大模型数据安全防护场景提供训练数据分级分类、文本数据脱敏、训练数据水印等基础数据安全能力。

大模型数据安全防护场景下提供“标准版”大模型敏感信息检测能力。

本文介绍数据安全中心大模型数据安全防护场景支持的功能特性。
表1 功能概览

功能特性

说明

参考文档

训练数据资产中心

DSC支持管理OBS资产,可将您的训练数据存储至OBS桶,DSC支持对OBS中的训练数据进行敏感数据识别、脱敏等操作。支持添加自有桶和其他桶。

添加OBS资产

训练数据资产目录

支持查看OBS数据类型(非结构化数据)的统计信息,包括文件总数、敏感文件数、分类分级统计结果等。

训练数据资产目录

文本敏感数据识别

从海量数据中自动发现并分析敏感数据使用情况,基于数据识别引擎,对OBS中的非结构化数据进行扫描,自动识别敏感和个人隐私数据并进行分类分级。
  • 文件类型:支持近200种非结构化文件,详情请参见DSC支持识别的非结构化文件类型
  • 数据类型:支持数十种个人隐私数据类型,包含中英文。
  • 支持自定义规则,场景适配不同行业。
  • 提供可视化识别结果,同时,可供用户下载到本地查看。

新建敏感数据识别任务

文本敏感数据脱敏

支持对OBS非结构化文件中的敏感数据进行自动检测和脱敏,防止敏感数据被用于AI训练。

  • 支持的文件类型:支持.txt,.log,.xml,.ini,.sql,.inf,.java,.json等类型的文件。
  • 支持的脱敏规则:用户可以通过20+种预置脱敏规则,或自定义脱敏规则来对指定敏感数据进行脱敏,DSC支持的脱敏算法详见脱敏算法
  • 不影响用户原始数据:从原始文件读取数据,通过精确的脱敏引擎,对用户的敏感数据实施静态脱敏,脱敏结果另行存放,不会影响原始的用户数据。
  • 实现一键合规:基于扫描结果自动提供脱敏合规建议,一键配置脱敏规则。

配置脱敏规则

OBS使用日志审计

根据敏感数据规则对OBS桶进行识别,根据识别的敏感数据进行监控,监控到敏感数据的异常事件相关操作后,会将监控结果展示在异常事件处理页面中,用户可根据需要对异常事件进行处理。

OBS使用日志审计

训练数据水印

针对OBS文档、图片提供了注入和提取水印的功能,支持明水印和暗水印。

可根据使用场景选择嵌入不同的水印信息:

  • 版权证明:嵌入数据拥有者的信息,保证资产唯一归属,实现版权保护。
  • 追踪溯源:嵌入数据使用者的信息,在发生数据泄露事件时,追踪其泄露源头。

文档水印注入

相关文档