更新时间:2022-05-13 GMT+08:00
分享

创建数据集

通过数据集,用户可获取到名下详细的资源列表。同时,对于有敏感信息的数据集,还可以单独设置隐私策略,并在发布到联盟侧后对其他参与方生效,限制敏感信息的使用,保障数据安全合规。

创建联邦SQL数据集

创建数据集前需存在已创建好的连接器,参考创建连接器

  1. 用户登录TICS控制台。
  2. 联盟成员登录TICS控制台。进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图1 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图2 前往计算节点

  5. 选择界面左侧“数据管理”,单击“创建”,在弹出的界面配置创建数据的参数,配置完成后单击“确定”

    图3 创建数据

    配置数据参数时,若“连接器”为Hive、MySQL、RDS、DWS、ORACLE类型时,可对字段信息进行隐私策略的配置:

    • 字段类别
      • 唯一标识:指用于标识某个事物实体身份的字段。例如身份证、工号、公司代码等。勾选后,会通过一定的语法限制和运行期校验,保护数据集内的id总集,确保无法被恶意逆推。
      • 敏感:指会参与统计、计算的敏感数据。例如薪水、纳税、用电量。勾选后,其他参与方只能使用敏感进行不可逆推的四则运算、聚合计算(sum/avg)、条件过滤(where)。TICS会保护唯一标识和敏感数据不被成对地明文泄露,同时会对敏感数据的求和计算添加差分噪声,以保护敏感数据不被泄露。
      • 非敏感:指不参与数值分析,也和唯一身份无关的数据。例如等级、公司类型。
    • 脱敏:勾选后,会对数据进行脱敏。

创建联邦学习数据集

创建联邦学习数据集只要保证本地连接器状态正常即可。联邦学习数据集只支持csv格式的数据文件,准备数据的格式及操作参考准备本地横向联邦数据资源准备本地纵向联邦数据资源

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。
  3. 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图4 选择计算节点

  4. 在“计算节点详情”页,单击“前往计算节点Agent”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。

    图5 前往计算节点Agent

  5. 选择界面左侧“数据管理”,单击“创建”,在弹出的界面选择本地连接器,配置创建数据的参数,配置完成后单击“确定”。

    配置联邦学习数据集时,必须选择数据文件或者数据ID文件,文件格式为csv。准备数据的格式及操作参考准备本地横向联邦数据资源准备本地纵向联邦数据资源

    图6 创建数据

    数据资源配置需要注意以下几点:

    1. 选择数据文件:选择数据集的原始文件,需要指定csv文件的“分隔符”“是否包含表头”“是否自动筛选对齐后数据”。“是否包含表头”是指文件的第一行是否是每一个字段的名称。“自动筛选对齐后数据”是指该数据集进行样本对齐后,是否通过计算节点根据数据文件自动生成对齐后的结果数据,作为特征选择、模型训练临时的数据集。
    2. 选择ID文件:选择数据集时,如果数据文件不含有ID字段,可以通过额外的ID文件来配置每一条数据的ID,默认两个文件的数据是一行一行对应的。
    3. 字段配置:配置每个字段的类别标签,包括以下几种:
      1. “唯一标识”,唯一确定一条记录的id字段,用于样本对齐。
      2. “特征”,反应事物的属性或性质,作为模型的输入变量。
      3. “标签”,给定输入时,模型的预期输出。
      4. “过滤字段”,会明文暴露给其他合作方的过滤字段信息,用于数据量较大时样本粗筛过滤。
    4. 选择配置文件:用户按照配置文件模板格式填写每个字段的名称、类型、备注和类别。选择后自动生成配置项。没有表头的数据集必须提供一个配置文件说明每一列数据的名称。

批量删除数据集

  1. 用户登录TICS控制台。
  2. 联盟成员登录TICS控制台。进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图7 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图8 前往计算节点

  5. 选择界面左侧“数据管理”,勾选需要删除的数据集,单击“批量删除”
分享:

    相关文档

    相关产品

关闭导读