更新时间:2021-12-17 GMT+08:00
分享

产品功能

数据服务的功能包含数据集、数据接入、数据准备等模块,这些模块的功能如下。

数据接入

  • 通过WEB页面上传本地数据

    数据接入支持用户通过WEB页面方式手动将本地数据上传入湖。

  • 按需采集数据

    数据接入支持部署前置机,以及在前置机上部署插件,通过插件实现按需采集数据。

  • 跨云采集数据

    数据接入集成公有云ROMA服务,支持跨云、第三方对接的数据采集接入能力。对于华为公有云上其他存储服务中的数据,可基于华为公有云的云数据迁移(Cloud Data Migration,简称CDM)服务来实现数据的对接和入湖。

数据集

  • 数据集

    检索提供分层展示的数据目录,用户可以方便快捷的查询需要的数据集信息,支持基于表名称、字段属性、关键字的查找和全文搜索。

  • 数据样本预览

    可以选定某个数据集,预览元数据信息和样本数据。

  • 数据集订阅

    用户选择需要的数据集,订阅下载到个人的租户空间或本地,供后续的AI模型训练使用。

  • 订阅通知

    订阅数据集后,数据集中数据有变化时,及时通知到用户。

数据准备

  • 数据采集入湖

    支持采集过程中的数据自动加密传输,并提供内置的数据解析模块,实现数据快速入湖

  • 数据集建模

    通过可视化界面配置表和字段,生成数据模型,并支持多种数据仓库类型,如MySQL、DWS、ES和OBS等。

  • 数据发布

    通过数据发布配置,将加工后的数据集发布到应用市场,帮助模型开发者快速获取数据集。

  • 数据安全

    支持字段粒度数据权限管控,提高数据安全管理精度;提供数据采集、解析、转换、使用等环节上的日志监控点,实现数据安全审计要求;支持AES-128,AES-192,AES-256等数据加密算法。

  • 数据的全项目编排和复用
    • 预置公共模板

      公共模板是面向所有用户的基于Case场景的数据入湖和治理项目模板,例如:云核KPI Case、路由器KPI Case等。用户可以基于公共模板,根据实际环境情况修改项目参数,从而实现项目的快速创建。

    • 项目的在线编排能力

      提供项目统一编排页面,通过任务编排形成可执行的项目,在项目调测通过后,可以保存为私有模板。私有模板是租户范围内可见的不可执行的实体,同一租户下的用户可以基于私有模板创建自己的项目。私有模板可以发布为公共模板,发布后所有租户下的用户都可见并可以使用。

    • 支持三级复用

      支持三级粒度的复用,分别是:脚本、任务、项目。通过复用脚本、任务或项目,可以快速的创建项目和启动项目。

数据建模

  • 提供数据存放分层的增删改查功能,帮助用户管理数据模型的分层层次结构。
  • 提供逻辑实体和物理实体管理功能,帮助用户完成标准化建模开发。
  • 提供配置数据销毁审批人功能,同时帮助用户进行数据销毁任务管理。

数据解析

目前的数据解析可以实现Pcap文件、4G-sig文件、4G-pmmrf文件、5G-sig文件、5G-pmmrf文件的解析,将原始的二进制文件解析为CSV文件,并直接上传到云端数据湖。

数据加载

支持不同数据源间的数据加载,目前,源端支持OBS(数据湖OBS和租户OBS)、HIVE或DWS存储。目标端支持OBS(数据湖OBS)、HIVE、DWS或HDFS存储。同时支持本地大数据上传至OBS(数据湖OBS)。

数据处理

数据处理是通过执行python脚本处理OBS数据。

数据探索

  • 模板管理

    用户在配置模式下创建查询时,可以将当前待执行的任务信息保存为自定义名称的模板,待下次期望发起相同或类似的任务时,可以调用该模板直接或稍作修改后发起任务。

  • 任务管理

    对应的为任务管理页面。可查看用户创建的所有任务,并且对之进行查看、删除、保存和刷新。

时序数据标注

  • 曲线形式展现原始数据:以图表的形式界面化显示原始数据,方便数据工程师、数据科学家便捷查看,标注异常值。支持展现单KPI数据列,也支持同时展现多KPI数据列原始数据。用户可以自定义选择。
  • 曲线数据缩放查看:通过改变横轴时间戳游标的长短,可以对页面内展现的数据进行缩放;多组曲线图可实现X轴联动缩放。
  • 单点标注+连续时间批量标注:用户可以单击数值点进行异常值标注或修改异常值为正常值。
  • 连续时间批量标注:使用横向选择工具,批量将连续时间段内的数据标注为异常值或修改为正常值。
  • 连续时间制定值域范围内批量标注:使用纵向选择工具,将当前显示时间范围内且数值在所选值域范围内的数据批量标注为异常值或修改为正常值。
  • 任意连续区域批量标注:使用局部选择工具,将任意连续区域内的数据标注为异常值或修改为正常值。
  • 自动标注:用户通过系统默认的自动检测规则或者配置指定时间范围内的阈值规则,批量自动标注数据。
  • 标注结果文件保存:支持保存标注结果到租户的OBS桶。数据工程师、数据科学家可以根据训练结果对标注结果文件重新标注。
  • 模板管理:对于多指标联合分析的场景,对选定指标分组后,可以将分组配置存为模板,形成业务经验方便后续使用。
  • 标签组管理:对于标注的标签值进行定义,支持多分类标注。

安全管理

安全管理平台定义的数据密级信息,包括:绝密、机密、秘密、内部公开、外部公开。支持对组织类型、数据目录、实体和实体中的属性分别进行密级设置。用户访问数据目录时,需要到安全管理平台进行密级鉴权,鉴权通过后才能访问数据目录、实体和实体中的属性。

密级定义如下所示:

  • 绝密:对公司市场竞争、领先对手起决定性作用,其泄露会使公司利益遭受巨大损害,且影响范围广泛;只适合在极少数人员或指定岗位范围公开的信息。如:核心算法、定价策略、战略意图。
  • 机密:对公司运营管理非常重要或内容非常敏感,其泄露会使公司利益遭受巨大损害,且影响范围广泛;只适合在极少数人员或指定岗位范围公开的信息。如:重要产品的路标规划、营销策略、经营分析报告、销售项目一览表、商务授权及价格信息。
  • 秘密:是公司比较重要或敏感的信息,其泄露会使公司利益受到一定损害,但影响范围有限;适合在体系、部门或特定组织范围公开的信息。
  • 内部公开:指可以在全公司范围公开,但不应向公司外部扩散的信息。
  • 外部公开:指可在公司外部公开发布的信息,不属于保密信息。

安全审计

安全审计界面列出了用户数据操作相关的记录列表。支持对用户数据操作进行审计。

数据备份与恢复

  • 系统级别的备份恢复

    提供数据存放分层的增删改查功能,帮助用户管理数据模型的分层层次结构。

  • 服务级别的备份恢复

    提供数据服务级别的备份恢复。

相关文档