数据来源版权检查
DSC数据来源版权风险检查是华为云为AI大模型训练设计的数据来源安全防护能力。旨在构造版权风险定级模型,帮助用户快速查明AI训练数据集中潜在的版权合规风险,助力构建可信赖、安全可控的AI应用。
未经许可使用受版权保护的数据进行模型训练,可能引发诉讼、赔偿,甚至导致产品被下线。DSC数据来源版权风险检查服务,结合国内外大模型训练版权侵权案例、行业律师研读评定、许可证分类、许可证协议、版权声明、商用场景、用户类别等维度构造版权风险定级模型,内置百万级版权风险信息,可提供精准的版权风险检测与风险治理能力。
前提条件
- 已完成云资产委托授权,具体请参见云资产委托授权/停止授权进行操作。
- 已添加OBS资产,具体请参见添加OBS资产中添加和授权资产的操作。
约束限制
- 识别风险的原理是基于数据的来源URL匹配已有的版权库识别风险,不是基于数据集内容识别的。
- 版权风险检查仅针对数据来源URL层面进行,不涉及对数据集内容的实际扫描或识别。
- 仅支持基于已有的来源版权信息进行风险评估,包括DSC内置的版权风险信息及用户自定义版权库中的来源,暂不支持对未收录或未知的数据来源进行版权风险评估。
- 自定义版权库仅支持添加与DSC内置版权库及本租户已有自定义版权库不同的数据来源,并以域名作为唯一区分标识。
- 数据来源文件的大小上限为20MB。
- 每个任务所包含的数据来源URL数量不得超过10,000条。
- 单个租户可创建的任务数量累计不超过1,000个。
- 自定义版权库中可配置的数据来源数量不得超过10,000条。
版权风险扫描流程
用户可以参考版权来源文件模板,在OBS桶中填写AI训练数据集对应的数据来源名称及来源地址,并通过DSC控制台发起版权风险检查任务。
DSC数据来源版权风险检查服务将基于内置的风险定级模型,对提供的数据来源逐条进行分析,识别其版权与许可证信息,并输出相应的风险评级结果。任务完成后,用户可以在DSC控制台中对每条风险评估结果进行人工确认,并在确认完成后导出版权风险报告。用户可以根据导出的报告,对存在版权风险的数据来源进行相应的治理。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“检查任务”页签,单击“准备元数据文件”下方的“下载版权来源文件模板.xlsx”,下载模板,按照模板要求填写数据来源信息。
图1 下载版权来源模板
- 登录OBS服务控制台,上传按照模板填好的文件。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“检查任务”页签,单击左上角“新建任务”。
- 在弹窗中选择在创建版权来源文件模板中填写并上传的文件所在桶名称及文件名称。
- 单击“启动检查任务”,在任务列表查看检查任务状态。
图2 选择版权来源文件
- 当“检查状态”显示为“完成”时,表示检查任务已成功创建并完成。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“检查任务”页签,单击操作列的“去确认”,进入“版权扫描结果”页面。
- 选择“版权风险等级”:DSC基于内置的风险定级模型,对所提供的数据来源逐条进行风险评定,并输出相应的风险评级结果。同时支持用户根据实际需求对识别结果进行人工调整。
- 确认扫描结果:在扫描结果全部确认无误后,才能导出数据来源版权风险评估报告。
每条数据来源的版权风险识别结果仅支持确认一次。
- 批量确认:可通过左侧复选框选择多个来源版权风险识别结果,单击“批量确认”,对选中的多条结果进行统一确认。
- 全量确认:单击左上角“全量确认”,可根据检测结果对全部风险识别结果进行一键确认。
- 单条确认:可在每条来源版权风险识别结果右侧的“操作”栏,单独确认该数据来源的版权风险结果。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“检查任务”页签,单击操作列的“开始导出”。导出前请确认检查结果全部完成确认。
- 在弹窗中指定导出数据来源版权风险评估报告的OBS存储路径。
- 单击开始导出,导出扫描结果文件,登录OBS控制台查看结果文件。
版权库维护
DSC支持用户在使用内置的风险定级模型的基础上,自定义扩展版权库内容,实现对自有数据来源的精准管理和版权风险控制,帮助用户提升AI训练数据安全防护能力和合规水平。本章节将详细介绍如何高效维护版权库信息。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“版权库维护”页签,单击左上角“下载版权库批量导入模板.xlsx”下载到本地,按照模板参数要求填写模板。
- 单击左上角“批量新增”,进入“批量导入版权信息”弹窗。
- 单击“添加文件”选择4中填好的模板文件,单击“打开”。
- 单击“开始导入”,导入模板内容。导入时,系统会检查域名是否与DSC内置风险定级模型或已有自定义版权库重复,如发现冲突,添加操作将失败,并返回具体原因提示。
- 登录DSC服务控制台。
- 单击左上角的
,选择区域或项目。 - 在左侧导航树中选择“数据来源版权检查”,进入“数据来源版权风险检查”页面。
- 选择“版权库维护”页签,单击左上角“新增版权信息”,进入“新增版权信息”弹窗。
- 按照如表1所示配置相关参数。导入时,系统会检查域名是否与DSC内置风险定级模型或已有自定义版权库重复,如发现冲突,添加操作将失败,并返回具体原因提示。
表1 版权信息 参数
说明
域名(必填)
需填写唯一域名,作为数据来源标识。如nebraska.forums.rivals.comexample.com。
版权许可地址(选填)
数据来源的版权许可链接,便于追溯和查阅。如https://example.com/licenses/standard。
版权许可名称(选填)
版权许可协议名称,快速识别许可类型。如Standard AI Training License v1.0 。
版权许可内容(选填)
示例:允许使用该数据集进行非商业AI训练,不得用于再分发。
说明:许可核心条款,明确使用范围和限制。
版权地址(选填)
数据集原始版权声明或来源页面链接。如https://example.com/copyright-info。
版权授权方(选填)
©2015-2025 Example. All Rights Reserved.版权持有方及完整版权声明,包括年份和保留权利说明,便于版权追溯与合规管理。
版权风险等级(必填)
单击下拉框选择版权风险等级:
- 高风险
- 中高风险
- 中风险
- 中低风险
- 低风险
- 未知
版权识别时间(选填)
单击
选择版权识别时间。系统或用户记录的版权识别时间,便于审计追踪。 - 单击“确定”完成版权信息新增。
相关操作
- 删除检查任务:在“检查任务”页签,单击“操作”列的“删除”,删除单条检查任务,或者勾选多条需要删除的检查任务,单击左上角“批量删除”,批量删除检查任务。
- 版权库维护:
- 在“版权维护”页签,单击“操作”列的“删除”,删除单条版权信息,或者勾选多条需要删除的版权信息,单击左上角“批量删除”,批量删除版权信息。
- 在“版权维护”页签,单击“操作”列的“编辑”,修改该条版权信息。