更新时间:2024-10-22 GMT+08:00
分享

创建数据集

通过数据集,用户可获取到名下详细的资源列表。同时,对于有敏感信息的数据集,还可以单独设置隐私策略,并在发布到空间侧后对其他参与方生效,限制敏感信息的使用,保障数据安全。

创建结构化数据集

创建数据集前需存在已创建好的连接器,参考创建连接器

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图1 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图2 前往计算节点

  5. 选择界面左侧“数据管理>数据创建”,单击“创建”,可选“本地连接器”或者“关系型数据库连接器”

    • 本地连接器:在弹出的界面选择本地连接器(localConnector),选择“结构化”数据类型,再配置创建数据的参数,配置完成后单击“确定”
    • 关系型数据库连接器:在弹出的界面选择关系型数据库连接器,例如RDS、MYSQL、DWS、HIVE等,关系型数据库的数据集默认是“结构化”数据类型。“选择“数据库”以及“数据表”,再配置创建数据的参数,配置完成后单击“确定”

    结构化数据是指具有标准化行、列数据属性的数据,例如sql、csv数据等。

  6. 配置结构化数据集时,需要注意以下几点:

    1. 选择数据文件:仅本地连接器需要配置。

      数据文件仅支持csv文件和数据目录两种形式。选择数据目录时,必须保证目录下至少包含一个csv文件,且所有csv文件的特征数保持一致。此外,选择数据集的原始文件,需要指定csv文件的“分隔符”“是否包含表头”。“是否包含表头”是指文件的第一行是否是每一个字段的名称。

    2. 数据结构:配置每个字段的类别标签,包括以下几种:
      1. “字段类型”:支持BOOLEAN、TINYINT、SMALLINT、INTEGER、BIGINT、FLOAT、DOUBLE、DECIMAL、STRING、TIMESTAMP、DATE,必须保证填写正确的字段类型。TIMESTAMP类型仅支持yyyy-MM-dd HH:mm:ss.SSS格式,DATE类型仅支持yyyy-MM-dd格式。
      2. “唯一标识”:用于唯一确定数据集中关键事物的实体身份字段。例如身份证、公司代码等。
      3. 敏感级别:包含敏感、非敏感两个选项。

        敏感:涉及隐私的数据, 例如薪水、 消费金额等。

        非敏感:不涉及隐私的数据, 例如所处城市、公司类型等。

      4. 脱敏:勾选后,该字段内容将在分析结果中加密呈现,否则明文呈现。默认不勾选(作业发起方所属字段不做脱敏)。
      5. 分布类型:包括连续、离散、MULTIHOT三种特征类型,联邦学习时可能会使用到该信息。

        离散:离散变量是在任意两个值之间具有可计数的值的数值变量。离散变量始终为数值变量。例如,客户投诉数量或者瑕疵或缺陷数。

        连续:连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量,也可以是日期/时间变量。例如,零件的长度,或者收到付款的日期和时间。

        MULTIHOT:使用multihot编码的特征,常见于类别特征,例如app列表、性格等。

    3. MULTIHOT分组配置

      用户可单击“添加分组”创建MULTIHOT分组,分组包含特征集、字典数两部分。特征集表示分组内所选MULTIHOT特征集合,每个MULTIHOT特征有且只能属于一个分组。字典数表示分组内所有MULTIHOT特征取值总维度,非必填字段,但必须保证全填或全不填该字段。

创建非结构化数据集

创建数据集前需存在已创建好的连接器,参考创建连接器

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图3 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图4 前往计算节点

  5. 选择界面左侧“数据管理”,单击“创建”,在弹出的界面选择本地连接器(localConnector),选择“非结构化”任务类型,配置创建数据的参数,配置完成后单击“确定”

    配置非结构化数据集需注意:

    选择数据文件:数据文件仅支持csv文件和数据目录两种形式。选择数据目录时,必须保证目录下至少包含一个csv文件,且所有csv文件的特征数保持一致。

    非结构化数据是指数据结构属性不规则、不完整的数据,例如二进制文件、图片等。

创建api数据集

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图5 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图6 前往计算节点

  5. 选择界面左侧“数据管理”,单击“创建”,在弹出的界面选择API类型连接器,配置创建数据的参数,配置完成后单击“确定”。

    图7 创建数据

    API数据集配置的外部数据源需满足如下要求:

    • 请求方式为GET或POST
    • 由查询条件可以查出对应一条或多条数据
    • 当配置隐匿查询作业的外部数据源时,接口需支持模糊查询id经过sha256转换后的值。 类似MySQL中的如下语句,其中x为查询的具体值。
      select * from table where SHA2(id,256)  like 'x%' ;
    • 返回json格式数组:

      [{"id":"7748076420210162913","x0":"3232","x1":15,"x2":16},

      {"id":"7748076420210162912","x0":"3232","x1":105,"x2":106},

      {"id":"3","x0":"3232","x1":115,"x2":116}]

批量删除数据集

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图8 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图9 前往计算节点

  5. 选择界面左侧“数据管理”,勾选需要删除的数据集,单击“批量删除”

    图10 批量删除

相关文档