数据集详情介绍
在数据服务“数据资产>数据目录”界面,单击某个数据集的名称,可以查看数据集详情,页面展示如下。
,或者- 页面上方:在图片中展示数据集的名称,该数据集的联系人和邮箱,以及浏览、订阅和下载量。
- 页面中下方:
数据信息
数据集的数据信息包含标签、描述信息、数据浏览器和关联数据集。
- 标签:在标签管理中,每个用户只能管理自己设定的标签。
- 新增标签:在“标签”右侧,单击,输入新增标签名称,单击“添加”。
- 删除标签:在“标签”右侧,单击,在需要删除的标签名称右侧单击“×”。
- 描述信息:了解数据集的来源、数据类型、样本量等信息。
在“描述信息”区域,单击“样本量”下面的,可以刷新该数据集的样本量。
对发布时分析失败的数据集,或者已经发布的数据集,可以手工方式进行样本量刷新。
刷新完成后样本量会呈现,如果样本量任务执行失败,则会再次显示。
- 数据浏览器
对于非结构化数据,单击某个文件,会展示出该文件的详细内容。
当数据集为结构化的数据时,才会显示数据字典、数据样例和数据分析。为已发布的数据集(一键式发布)追加文件:点击“添加数据”,追加文件。如果追加的文件结构与数据集中数据的结构完全一致,在下载的时候会对文件进行合并,否则追加的文件会存储到OBS对应的桶中,供用户下载使用。
- 数据集物理存储分布
展示的是当前数据集在各个存储介质上的统计情况。左侧饼图展示的是当前数据集在HDFS、HBase、ES、MySql、OBS上的存储量;右侧折线图展示的是当前数据集在各存储介质上的存储量的变化情况。
- 关联数据集
- 只有具有“Data Operation Engineer”角色的用户,可以刷新本租户下数据集的样本量、刷新本租户下数据集的时域范围、刷新本租户下数据集的数据样例、启动本租户下数据集的数据分析任务以及为已发布的数据集追加文件。
- 如果已有成功执行的数据分析任务结果,再次启动执行后,成功前不会清理原任务结果。
- 重启服务会清理RUNNING中或者INIT状态下的数据分析任务,以解决坏死的数据分析任务(指在运行过程中遭遇宕机等异常形成的一直在运行中的任务)。
设置数据集的信息及可视范围
具有“Data Operation Engineer”角色的用户,才有设置本租户下数据集信息和可视范围的权限。
在“设置”页签下,可以设置如下信息。
- 基本设置
- 基本设置:可以设置该数据集的子标题、所有者、用户邮箱、过期时间、是否同步样例数据、时域信息等。
- 分类管理:设置搜索查询数据集的筛选条件,设置成功后展示在“条件筛选”界面。
- 目录管理:修改当前数据集所在的目录。
- 删除数据集:删除数据集。
- 图片:图片设置支持修改数据集的默认显示图片。后续支持用户自定义图片的上传。
- 权限设置
- 安全策略设置
可以对该数据集进行水印管理。只有结构化数据支持加水印。对字符串型字段加水印会影响数据的搜索功能,但几乎不影响分类、聚类等算法。
- 添加水印:单击,选择需要添加水印范围和对应的列,单击“保存”,在“确认”对话框单击“确认”。
- 取消水印:单击,单击“保存”,在“确认”对话框单击“确认”。