应用场景
数据服务的应用场景包含数据集、数据接入、数据准备等模块,这些模块的应用场景如下。
数据接入
数据接入适用于电信网络数据自动入湖、第三方系统数据自动入湖、互联网数据自动入湖、公有云存储中数据自动入湖、数据Owner本地数据入湖等场景。
- 电信网络数据自动入湖
- 第三方系统数据自动入湖
第三方系统包括NAIE平台以外的第三方云、数据仓库、数据管理系统(例如:数据中台)、企业或政府建设的数据系统。在第三方系统owner授权范围内,数据接入与第三方系统通过合法的系统接口进行对接,实现数据的自动入湖。
- 互联网数据自动入湖
互联网数据是通过网站开放的API接口或网络爬虫来自动获取的。获取互联网数据需要先获得数据使用权,然后通过合法渠道获取数据。网络爬虫只能获取网站上公开的、不涉及版权和商业侵权的数据。
- 公有云存储中的数据自动入湖
数据接入提供基于公有云的数据迁移能力,支持对接公有云不同的存储服务和数据处理,例如:OBS、DWS、Kafka等,实现按需自动迁移数据入湖。
- 数据Owner本地数据入湖
数据接入提供WEB方式的数据上传能力,支持数据Owner登录WEB页面将本地的数据直接上传入湖,不需要用户在本地安装部署数据接入的任何工具。数据接入具备断点续传能力。
数据集
- 无线接入训练数据集
提供用于无线接入场景AI模型训练的数据,包括无线网络的话统、配置、性能、告警等数据。
场景案例
- 智能栅格:利用无线指纹数据检测代替传统的UE异频测量,在进行CA/MLB/HO等操作时实现免异频测量操作,提升用户数据业务吞吐量。提供1个训练集,29维特征。
- Massive MIMO广播波束优化:基于对话务分布、无线干扰、小区负载等因素的分析,快速对Massive MIMO广播波束寻找最优Pattern组合,提升小区吞吐量。提供1个训练集,12维特征。
- 基站智能关断节能:基于准确的基站流量预测实施基站载频关断,降低基站能耗。提供2个训练集(性能,工参), 41维特征。
- 固定接入训练数据集
提供用于固定接入场景AI模型训练的数据,包括PON固定接入网络设备的拓扑、性能、告警、业务体验等数据。
场景案例
- PON光网络故障预测:基于PON光网络无源器件指标的分析,预测无源器件故障并提前采取措施,降低PON光网络维护成本。提供2个训练集(OLT、ONU),48维特征。
- 承载网训练数据集
提供用于承载网场景AI模型训练的数据,包括波分、路由器、微波、SDH等网络设备的拓扑、性能、告警、业务体验等数据。
场景案例
- AI优化光层调测:用于波分网络BER评估模型训练,评估调测后各点功率在特定路径状态及相邻波状态下的收端BER性能,解决多物理效应下E2E性能评估问题。提供1个训练集,362维特征。
- 核心网训练数据集
提供用于核心网场景AI模型训练的数据,包括IMS、EPC、P-GW等网络设备的性能、告警、业务体验等数据。
场景案例
- 核心网KPI异常智能检测:基于网元业务KPI指标发现静默故障,提升故障检测准确率,多指标关联达到故障分钟级定位。提供288个训练集,288维特征。
- 数据中心训练数据集
提供用于数据中心场景AI模型训练的数据,包括数据中心制冷系统、硬盘等设备的运行状态等数据。
场景案例
- DC硬盘故障检测:通过对老化硬盘和新硬盘的关键参数对比,实现提前30~45天故障预测,确保硬盘数据不丢失。提供1个训练集,24维特征。
- DC PUE优化:通过快速寻优DC制冷系统参数组合,降低DC能耗。提供2个训练集(冷站数据,末端数据),157维特征。
- 跨域训练数据集
提供用于跨域场景AI模型训练的数据,包括视频体验相关的端到端数据集合。
场景案例
- 视频优化:基于视频终端(STB)的KPI、KQI、告警等数据的分析,建立视频质差预警模型,提升视频故障处理效率,实现视频体验提升。提供3个训练集,共128维特征。
数据准备
- 构建云端数据湖
- 准备训练数据集
用户通过数据采集、解析、建模、处理、发布等模块能力编排,实现自动化准备训练数据集。
- 模板复用场景
通过使用已经发布的公共模板快速创建项目和启动项目。用户可以在数据服务首页的“电信领域公共模板TOP5”区域或在“电信领域公共模板”界面中选择需要的模板。
对于每个公共模板,数据服务都提供了指导说明,用户可以查阅该指导说明进行项目的创建。
- 项目开发场景
项目开发场景主要提供给“Data Processing Engineer”角色的用户开发自己的数据处理项目,“Data Processing Engineer”角色用户需要提前准备好项目中所需要的脚本或URL等,如果要在数据服务中通过调用脚本来执行任务,则需要先在本地准备好自定义的脚本文件并将自定义脚本文件上传到OBS桶中,然后使用数据服务创建脚本和各种处理任务,并将任务在项目编排页面进行编排和修改,调试项目,最终得到处理数据的整体项目。
项目调试完成后可以将项目保存为私有模板,用于将项目共享给同一租户下的其他用户,如果要将模板共享给所有用户使用,则可以将私有模板发布为公共模板。发布模板时需要提供该模板的详细使用说明。
- 模板复用场景
- 分析和标注电信数据
数据处理
数据处理是数据湖中数据管理的重要部分。可以通过数据处理,将用户的原始数据转换成目标模型数据格式。
时序数据标注
标注是KPI异常检测非常重要的数据,可以提升监督学习训练过程中KPI检测准确率,在无监督学习中做算法验证评估:
- 监督学习:使用标注工具对原始数据进行标注,并将标注数据用于训练。用户基于训练结果进行确认和重新标注,并将标注数据重新用于训练,提升KPI检测准确率。
- 无监督学习:使用标注工具对原始数据进行标注,对模型进行算法验证和评估。用户基于训练结果进行确认和重新标注,对模型进行算法验证和评估。
数据标注是为数据工程师、数据科学家等提供的辅助标注工具。
安全管理与审计
- 安全管理设置好后,主要通过对接数据目录来实现数据权限的功能,如图1所示。
- 安全审计用于用户数据操作是否合法合理合规。
数据备份与恢复
- 数据备份是指以服务粒度备份所有租户(已使用数据服务的租户)的数据。
- 数据恢复是指以租户粒度恢复已备份的数据。