大模型数据安全防护场景功能特性
大模型数据安全防护场景提供训练数据分级分类、文本数据脱敏、训练数据水印等基础数据安全能力。
大模型数据安全防护场景下提供“标准版”大模型敏感信息检测能力。
本文介绍数据安全中心大模型数据安全防护场景支持的功能特性。
训练数据资产中心
DSC支持管理OBS资产,可将您的训练数据存储至OBS桶,DSC支持对OBS中的训练数据进行敏感数据识别、脱敏等操作。支持添加自有桶和其他桶。更多相关信息请查阅添加OBS资产。
训练数据资产目录
支持查看OBS数据类型(非结构化数据)的统计信息,包括文件总数、敏感文件数、分类分级统计结果等。更多相关信息请查阅训练数据资产目录。
文本敏感数据识别
- 文件类型:支持近200种非结构化文件,详情请参见DSC支持识别的非结构化文件类型。
- 数据类型:支持数十种个人隐私数据类型,包含中英文。
- 支持自定义规则,场景适配不同行业。
- 提供可视化识别结果,同时,可供用户下载到本地查看。
文本敏感数据脱敏
支持对OBS非结构化文件中的敏感数据进行自动检测和脱敏,防止敏感数据被用于AI训练。
- 支持的文件类型:支持.txt,.log,.xml,.ini,.sql,.inf,.java,.json等类型的文件。
- 支持的脱敏规则:用户可以通过20+种预置脱敏规则,或自定义脱敏规则来对指定敏感数据进行脱敏,DSC支持的脱敏算法详见
- 不影响用户原始数据:从原始文件读取数据,通过精确的脱敏引擎,对用户的敏感数据实施静态脱敏,脱敏结果另行存放,不会影响原始的用户数据。
- 实现一键合规:基于扫描结果自动提供脱敏合规建议,一键配置脱敏规则。
OBS使用日志审计
根据敏感数据规则对OBS桶进行识别,根据识别的敏感数据进行监控,监控到敏感数据的异常事件相关操作后,会将监控结果展示在异常事件处理页面中,用户可根据需要对异常事件进行处理。更多相关信息请查阅OBS使用日志审计。
训练数据水印
针对OBS文档、图片提供了注入和提取水印的功能,支持明水印和暗水印。更多相关信息请查阅文档水印注入。
可根据使用场景选择嵌入不同的水印信息:
- 版权证明:嵌入数据拥有者的信息,保证资产唯一归属,实现版权保护。
- 追踪溯源:嵌入数据使用者的信息,在发生数据泄露事件时,追踪其泄露源头。