创建样本分布统计作业
创建样本分布统计作业步骤如下:
- 在“作业管理 > 多方安全计算”页面单击创建,进入sql开发页面,展开左侧的“合作方数据”可以看到企业A、大数据厂商B发布的不同数据集。
- 单击某一个数据集可以看到数据集的表结构信息。
此时企业A可以编写如下的sql语句统计双方的数据碰撞后的正负样本总数,正负样本总数相加即为双方共有数据的总数。
select sum( case when i.label > 0 then 1 else 0 end ) as positive_count, sum( case when i.label <= 0 then 1 else 0 end ) as negtive_count from tics_02.bigdata1 b join league_creator.industry1 i on b.id = i.id;
编写完成后单击“保存”和“提交审批”,由于这条sql使用到了大数据厂商B的数据集,为保证数据安全和参与方的知情权,tics服务会自动解析sql语句将大数据厂商B需要执行的sql语句发送到大数据厂商B的计算节点上,当大数据厂商B同意审批之后才可以执行该条sql。
除此之外,tics服务会基于数据集的安全隐私策略自动校验sql语句中字段的使用方式,如有违反字段隐私配置规则的语句会被明确拒绝。
- 大数据厂商B在自己的计算节点单击“审批管理”模块,找到“待处理”的审批请求单击“查看详情”,可以看到企业A是如何使用自己的数据集的。
- 确认无误后再单击“同意”即允许企业A使用己方的数据集进行联合统计。
此时企业A在自己的计算节点上可以看到这个样本分布联合统计作业的状态已经变为了审批通过,“执行”按钮已经亮起。