产品术语
A
AML
自动化机器学习。提供业务人员可以直接使用的各类机器学习应用服务,用户仅需提供训练数据和业务目标即可得到精准的挖掘结果,所有服务通过rest接口实现,可以方便的集成到各业务系统中。同时AML支持定制人员开发新的插件服务,支持将已有的业务经验集成到AML中,和预置的分析服务共同影响挖掘结果。
B
B域
业务域数据,例如CRM系统、Billing系统等。
标注结果文件
用户对原始数据进行标注,标注后保存在租户OBS桶资源中的结果文件。支持用户根据实际情况定义和使用标识。
C
采集
从数据提供者侧获取数据。
CDM
融合数据模型。电信行业领域模型,整合运营商的数据资产,把海量离散的、碎片化的数据加工形成具有商业价值的信息。
CDR
呼叫数据记录。包含控制面数据,体现了用户通话或者WEB业务信息,并能从侧面反映业务质量。
计费记录数据。是指从IMS网元接收的计费消息经过iCG9815的处理后生成的话单;用来提供给计费中心对用户进行计费。
存储空间
存储待标注数据文件和标注结果文件的OBS桶。用户可以选择归属于当前租户的OBS桶和标注服务私有OBS桶。
CL标注
Continual Learning特定场景下的标注类型。待标注的数据文件是有特定结构的窄表数据。
D
待标注文件
待标注的时序指标数据文件。文件至少包含一列时间序列数据和一列指标数据。
点标注
对单指标点的标注。一个标注结果数据点对应单个指标数据点。
F
发布
指定人员从特定系统中(当前阶段仅从数据权限)同步元数据,按照一定规则将数据放入到数据集中,供消费者订阅使用。
服务私有空间
租户订购时序数据标注工具后,分配给该服务的私有OBS空间。其他服务不可见。
G
告警
设备或网络系统轮询发现故障时所上报的信息。
告警源
产生告警事件的告警设备。
公共模板
在不同的租户下, 用户可以复用已有脚本、任务或项目,只需要修改部分参数即可快速成功运行项目,这个被复用的脚本、任务或项目被称为公共模板。
管理侧权限
管理侧权限是指一个租户在数据服务中具有Data Operation Engineer或Data Owner角色的用户,对于数据集具有发布(或删除)数据集的权限或是审批数据集发布(或删除)申请的权限,以及具有浏览、查询、订阅和下载已发布数据集的权限。
GTS采集框架
由华为的GTS部门研发的统一采集框架,支持云地采集场景的数据接入能力。
管理侧权限
管理侧权限是指一个租户在数据服务中具有Data Operation Engineer或Data Owner角色的用户,对于数据集具有发布(或删除)数据集的权限或是审批数据集发布(或删除)申请的权限,以及具有浏览、查询、订阅和下载已发布数据集的权限。
H
HCSO
Huawei Cloud Stack Online是华为云在客户数据中心的一种延伸,以一体化全栈方式交付完整的云服务平台,与华为云统一架构、统一服务、统一API。
HDFS
HDFS是Hadoop的分布式文件系统,在“数据探索”中可被作为一种文件数据源使用。
HEC
Huawei Enterprise Cloud,华为公有云。NAIE数据服务部署在华为公有云上。
HIVE
HIVE是基于Hadoop的一个数据仓库,在“数据探索”中可被作为一种数据源使用。
函数管理
数据探索允许用户使用自定义脚本(当前仅支持Python)注册函数,并可以重复在任务中使用以实现特定的能力。
I
IAM
Identity and Access Management。统一身份认证服务,提供适合企业组织结构的用户管理机制,为企业成员分配不同的资源及操作权限,通过访问密钥以OpenAPI的方式访问公有云资源。
J
机密
对公司运营管理非常重要或内容非常敏感,其泄露会使公司利益遭受巨大损害,且影响范围广泛;只适合在极少数人员或指定岗位范围公开的信息。如:重要产品的路标规划、营销策略、经营分析报告、销售项目一览表、商务授权及价格信息。
假名化
为了限制通过个人数据来识别数据主体,个人数据中包含的身份信息可以被假名替代,这种替代就是假名化。假名化的两个属性是:(1)和假名相关联的其他属性不足以识别出这些属性关联的数据主体;(2)除假名分配者外,隐私相关方(例如数据控制者)在有限的努力下无法根据假名逆推出数据主体。假名化以后的数据依然属于个人数据。
解析
将不可读取使用的数据或文件,通过一定的方法或手段,转化为可读取使用的数据或文件, 供后续流程处理。
绝密
对公司市场竞争、领先对手起决定性作用,其泄露会使公司利益遭受巨大损害,且影响范围广泛;只适合在极少数人员或指定岗位范围公开的信息。如:核心算法、定价策略、战略意图。
K
KPI原始文件
未标注过的原始数据集。
控制流
用于对任务的编排,用于控制任务之间的执行流程。控制流各个任务之间没有数据流向。
L
流式数据
数据以字节流、消息等方式实时产生和传递,一般由Kafka、字节流接口、Rest接口等实现对接。
M
MRS
MapReduce服务打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量的数据存储和分析能力,可解决各大企业的数据存储和处理需求。用户可以独立申请和使用托管Hadoop、Spark、Hbase和Hive服务,用于快速在主机上创建集群,提供海量数据的实时性要求不高的批量数据存储和计算能力。
M域
企业管理域数据,例如财务系统、固定资产等。
秘密
是公司比较重要或敏感的信息,其泄露会使公司利益受到一定损害,但影响范围有限;适合在体系、部门或特定组织范围公开的信息。
密级
根据安全的重要性划分的等级。分为外部公开、秘密、机密和绝密四种状态。
模板管理
用户可以在任务创建过程中,将当前待执行的任务信息保存为自定义名称的模板,待下次期望发起相同或类似的任务时,可以调度该模板直接或稍作修改后发起任务。
O
OBS
基于对象的云存储服务, 在“数据探索”中可被作为一种文件数据源使用。
O域
网络域数据,例如信令系统、拨测系统、话务网管、数据网管、传输网管、网优系统、综合资源。
P
批式数据
批式数据是指数据产生后在采集的时效性不高的情况下,大多以文件的形式进行传递,具有一次性、周期性的特点,一般走SFTP、HTTPS带附件等接口协议进行传输。
R
任务管理
“任务管理”是“数据探索”的任务管理区,用户可以在该区域找到历史发起的探索任务。
S
私有模板
在同一租户下,用户可以复用已有脚本、任务或项目,只需要修改部分参数即可快速成功运行项目,这个被复用的脚本、任务或项目被称为私有模板。
SRE
网络可靠性工程师。SRE起源于国外大型互联网公司,直接掌管着互联网公司的机器和服务,保证网站不宕机是他们的使命。SRE基本是从软件研发工程师转型,有很强的编程算法能力,同时具备系统管理员的技能,熟悉网络架构等,是一个要求非常高的职业。大部分人理解SRE等于传统运维工程师(OP)或者系统管理员(SA),实则不然,这两类角色离一名合格的SRE还有太大的差距,完全无法匹配得上这个称号。
数据安全
数据安全关注数据治理过程中与数据相关的安全保障技术及相应的管理办法,包括:数据权限控制、数据去隐私化、数据加解密、数据访问审计等;保证数据可信、可用。
数据备份
将重要数据拷贝到备用存储区中的方法,用以防止原存储空间损坏或崩溃。
数据标准
数据标准为数据模型的设计提供了规范和约束,为元数据和数据的质量保证提供了技术支撑。本期版本的数据标准主要包括:数据分层标准、模型设计标准(逻辑实体命名、字段命名、数据类型等)、模型库、业务术语等。
数据湖
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。
数据集
数据集是一种由数据所组成的集合,这些数据通常具有相似的特征或支撑目标。
数据目录
数据目录是为开发者提供数据集开放流通的平台,支持数据集的发布、订阅、推送、回收等。
数据源
数据源是指数据的来源,是提供某种所需要数据的器件或原始媒体。
数据治理
数据治理借鉴资产管理的方法理论来管理数据,对进入平台的数据进行标准化的规范约束。以元数据作为驱动,连接数据的标准管理、数据质量管理、数据安全管理的各个阶段,形成统一、完善的数据治理体系。
数据质量
通过计划、实施和控制活动,运用质量管理技术,度量、评估、改进和保证数据的恰当使用。数据质量管理的总体目标:标准化、体系化、自动化的全面数据质量管理,以达到数据质量控制的全面性、可控性、可度量性、可迅速定位和有效解决。
数据资产
数据资产是指数据服务以提升数据资产的管理水平和数据资产的使用效率为目标,搭建数据管理框架,实现统一的数据资产视图、数据资产台账化、指标来源可追溯、数据质量监控的全过程。
数据来源
标注服务可以使用的OBS桶来源。
水印
数字水印过程就是向被保护的数字对象(如静止图像、视频、音频等)嵌入某些能证明版权归属或跟踪侵权行为的信息,可以是作者的序列号、公司标志、有意义的文本等等。 从视觉角度,分为可见水印和不可见水印。顾名思义,就是以嵌入水印后,能否被人以肉眼识别水印为依据划分的。
实例化
应用模板实例化的过程,即使用应用模板快速创建项目的过程。
T
探索工厂
“探索工厂”是“数据探索”的主工作区,用户登录服务后,可以在该工作区发起探索任务。
TLS
Transport Layer Security。安全传输层协议,用于在两个通信应用程序之间提供保密性和数据完整性。该协议由两层组成:TLS记录协议(TLS Record)和TLS握手协议(TLS Handshake)。较低的层为TLS记录协议,位于某个可靠的传输协议(例如:TCP)上面。
同步任务
指在用户发起后实时返回任务执行结果的探索任务,当前只支持在单个数据源内探索数据时发起。
拓扑
一个局域网内或多个局域网之间的设备连接所构成的网络配置或布置。
W
外部公开
指可在公司外部公开发布的信息,不属于保密信息。
网元
网络单元,包含硬件设备及运行其上的软件。
X
xDR
用户面和控制面数据详细记录的统称。
血缘分析
血缘分析(又叫血统分析)是指从某一实体作为起点,往回追溯其数据处理过程,直到相关的数据源接口。为实现血缘分析功能,对于任何指定的实体,首先获得该实体的所有前驱实体,然后对这些前驱实体递归地获得各自的前驱实体,结束条件是所有实体到达数据源接口或者是实体没有相应的前驱实体。
训练集
训练集是指在机器学习和模式识别等领域中,用来估计模型的数据集。
消费侧权限
消费侧权限是指一个租户在数据服务中除了Data Operation Engineer或Data Owner角色的其他用户及其他租户下的所有用户,对于数据集具有浏览、查询、订阅和下载已发布数据集的权限。
Y
异步任务
只在用户发起后用户保存“任务名称”异步执行的探索任务,用户可以在“任务仓库”后查看异步任务的执行状态及结果。
云地采集
NAIE数据服务部署在公有云上,地端指电信网络侧。通过数据接入对接电信网络的网管或设备,实现数据采集入湖。
Z
整行标注
整行记录标注,一个标注结果数据点对应一整行记录。
治理
数据治理借鉴资产管理的方法理论来管理数据,对进入平台的数据进行标准化的规范约束。以元数据作为驱动,连接数据的标准管理、数据质量管理、数据安全管理的各个阶段,形成统一、完善的数据治理体系。
租户OBS桶
租户订购服务后,分配该租户的公共OBS桶,以及该租户在集成管理控制台订购的OBS桶。该租户订购的所有服务均可以访问使用。
作业位置
存储数据处理作业脚本的OBS桶。
工作位置
存储数据处理作业脚本的OBS路径。工作位置会根据用户输入的作业名称和作业位置,自动生成。
执行引擎
数据处理作业执行Python脚本的运行环境。