更新时间:2022-05-07 GMT+08:00
分享

数据集详情介绍

在数据服务首页>我的数据集,或者“数据资产>数据目录”界面,单击某个数据集的名称,可以查看数据集详情,页面展示如下。

  • 页面上方:在图片中展示数据集的名称,该数据集的联系人和邮箱,以及浏览、订阅和下载量。
  • 页面中下方:
    • 数据信息:详细信息及操作请参见数据信息
    • 评论:详细信息及操作请参见评论数据集
    • 设置:详细信息请参见设置数据集的信息及可视范围,详细操作请参考修改数据集(新)
    • 数据集上架:将数据集上架到AI市场,详细信息及操作请参考数据集上架
    • 批量订阅/我要订阅:订阅该数据集,详细操作请参见立即订阅数据集申请订阅数据集
    • 应用数据集:可以进行数据集的解析、处理、探索、标注、敏感检测、脱敏处理及水印加解密。具体介绍请参考对应章节。
    • >我要下载/申请下载到本地/取消订阅:已订阅的数据集可以在此处下载、申请下载到本地、取消订阅。

数据信息

数据集的数据信息包含标签、描述信息、数据浏览器和关联数据集。

  • 标签:在标签管理中,每个用户只能管理自己设定的标签。
    • 新增标签:在“标签”右侧,单击,输入新增标签名称,单击“添加”
    • 删除标签:在“标签”右侧,单击,在需要删除的标签名称右侧单击“×”。
  • 描述信息:了解数据集的来源、数据类型、样本量等信息。

    “描述信息”区域,单击“样本量”下面的,可以刷新该数据集的样本量。

    对发布时分析失败的数据集,或者已经发布的数据集,可以手工方式进行样本量刷新。

    刷新完成后样本量会呈现,如果样本量任务执行失败,则会再次显示

  • 数据浏览器
    对数据集的文件结构进行展示,以及展示文件数量和列数等信息。
    • :下载该数据集,当成功订阅该数据集后,显示该图示。详细操作请参见下载数据集到OBS
    • :全屏显示数据浏览器。

    对于非结构化数据,单击某个文件,会展示出该文件的详细内容。

    当数据集为结构化的数据时,才会显示数据字典、数据样例和数据分析。
    • 数据字典:了解数据模型属性,例如,数据模型属性的名称、数据类型、字段长度和字段描述信息。
    • 数据样例:数据集的样例,帮助用户简单了解该数据集。

      提供数据样例同步功能,在数据样例列表左上角,单击,可以进行样例数据的刷新。

    • 数据分析:提供数据的可视化展现,在数据集详情页面提供数据统计展示能力,为消费者提供数据参考,当前版本支持呈现1000条样例数据。可执行的操作如下。

      :执行数据分析任务,在数据分析任务完成后,在页面呈现数据分析结果。

      对于发布时分析失败的数据集,或者已经发布的数据集,以手工方式启动数据分析任务,进行数据的重新分析。

    为已发布的数据集(一键式发布)追加文件:点击“添加数据”,追加文件。如果追加的文件结构与数据集中数据的结构完全一致,在下载的时候会对文件进行合并,否则追加的文件会存储到OBS对应的桶中,供用户下载使用。

  • 数据集物理存储分布

    展示的是当前数据集在各个存储介质上的统计情况。左侧饼图展示的是当前数据集在HDFS、HBase、ES、MySql、OBS上的存储量;右侧折线图展示的是当前数据集在各存储介质上的存储量的变化情况。

  • 关联数据集

    可以添加或删除关联数据集。

  • 只有具有“Data Operation Engineer”角色的用户,可以刷新本租户下数据集的样本量、刷新本租户下数据集的时域范围、刷新本租户下数据集的数据样例、启动本租户下数据集的数据分析任务以及为已发布的数据集追加文件。
  • 如果已有成功执行的数据分析任务结果,再次启动执行后,成功前不会清理原任务结果。
  • 重启服务会清理RUNNING中或者INIT状态下的数据分析任务,以解决坏死的数据分析任务(指在运行过程中遭遇宕机等异常形成的一直在运行中的任务)。

评论数据集

评论功能,可以对该数据集进行评论和打分。

“评论”页签下,在评论框中输入评论内容,选择五角星可以对数据集进行评分,在右上角单击“提交”

设置数据集的信息及可视范围

具有“Data Operation Engineer”角色的用户,才有设置本租户下数据集信息和可视范围的权限。

“设置”页签下,可以设置如下信息。

  • 基本设置
    • 基本设置:可以设置该数据集的子标题、所有者、用户邮箱、过期时间、是否同步样例数据、时域信息等。
    • 分类管理:设置搜索查询数据集的筛选条件,设置成功后展示在“条件筛选”界面。
    • 目录管理:修改当前数据集所在的目录。
    • 删除数据集:删除数据集。
  • 图片:图片设置支持修改数据集的默认显示图片。后续支持用户自定义图片的上传。
  • 权限设置
    当数据集的密级为秘密及以上级别时,才需要此设置。
    • 公开设置:公开设置可以添加数据集的授权范围,授权分为对用户授权和对租户授权。
    • 订阅设置:本租户内的用户订阅该数据集时是否免审批。
  • 安全策略设置

    可以对该数据集进行水印管理。只有结构化数据支持加水印。对字符串型字段加水印会影响数据的搜索功能,但几乎不影响分类、聚类等算法。

    • 添加水印:单击,选择需要添加水印范围和对应的列,单击“保存”,在“确认”对话框单击“确认”
    • 取消水印:单击,单击“保存”,在“确认”对话框单击“确认”
分享:

    相关文档

    相关产品

close