网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

数据使能方案设计

更新时间:2024-04-23 GMT+08:00
分享
图1 数据使能方案设计

在完成数据使能的4A架构设计后,即可进行数据使能方案设计。数据使能方案设计是数据管理实施专业服务的核心工作,在这个过程中,交付团队会完成流程目录梳理、数据资产目录设计、数据分布梳理、数据标准设计、指标数据梳理、数据模型设计、分层Mapping设计、数据质量设计、业务指标设计、技术指标设计、数据应用设计等工作。最终支撑数据使能解决方案的落地。

流程目录梳理

流程目录(Process Catalog)是一个用于记录和组织企业各类业务流程的集合,它包含了组织内外各个层级的业务流程、主题域分组、主题域、业务对象等信息。流程目录的设计和维护有助于企业在业务管理、流程优化和信息共享方面取得更好的效果。

输出的内容主要有以下两种,业务架构图:

图2 业务架构图
图3 业务流程图

数据资产目录设计

随着数字化转型的推进,企业面临着越来越大的复杂的数据资源,在信息爆炸的背景下,企业内部的数据往往分散在各种系统的部门中,导致数据孤岛现象,造成数据的冗余和低效利用,同时数据管理和治理面临着越来越严峻的挑战。为有效应对这些问题,通过资产的目录的梳理,建立一个全面的、统一和可视的数据资产清单,涵盖企业内部所有数据资源。资产目录将为数据管理和治理提供基础,帮助企业更好地优化数据使用、共享和流转,降低数据管理的复杂性。

信息架构(Information Architecture):企业级信息架构是以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。

数据资产目录是一个组织或企业中用于管理和组织数据资产的结构化文档或系统。它记录了组织内部存在的各种数据资产,包括但不限于数据库、数据集、文件、报告、元数据等信息。数据资产目录的主要目的是为了帮助组织更有效地管理、控制和利用其数据资源。

数据资产目录有如下作用:

  • 数据资产清单:资产目录提供了企业内部所有数据资产的全面清单,包括数据库、表、文件等。它帮助组织了解所有数据资产的属性、用途、所属部门和数据血缘关系,为数据资产提供统一的视图和描述
  • 数据管理和治理:资产目录为数据管理和治理提供了基础。通过明确数据资产的归属、负责人和使用规则,资产目录帮助企业更好地管理数据资源,减少数据冗余和重复存储,提高数据质量和安全性
  • 数据流程优化:资产目录揭示了数据资产之间的关联和流转路径,帮助企业优化数据流程和数据使用。它使数据流程更加高效,减少数据的滞留和延误,提升数据使用的效率和价值
  • 数据决策支持:通过资产目录,企业能够更准确地了解数据资源,从而做出更准确的数据驱动决策。它为业务洞察和智能决策提供依据,推动业务增长和竞争优势
  • 数字化转型基础:资产目录是数字化转型的基础设施之一。它帮助企业在数字化转型过程中优化业务流程,提升数字化能力,实现业务模式的创新和提高竞争力
  • 数据合规和隐私保护:通过资产目录,企业能够更好地管理和控制敏感数据,确保数据的合规性和隐私保护,降低数据泄露和安全风险

数据分布梳理

数据分布指的是数据在不同的存储系统、节点或位置之间的分布情况。了解数据在哪里存储,如何分布,以及分布情况的变化对数据处理、查询性能和数据安全都非常重要。

在数据资产目录中记录数据的分布信息可以帮助数据使用者更好地了解数据的物理存储位置。这对于查询性能优化很有帮助,使用者可以根据数据分布情况选择更合适的查询方式。此外,了解数据存储位置也有助于数据的隐私和安全管理

在数据流程目录中了解数据的分布情况非常重要。如果数据在不同的节点上分布,数据流程需要考虑如何处理数据移动和传输。避免不必要的数据复制和传输可以提高流程的效率,并减少资源开销。同时,了解数据分布还可以影响数据转换和处理步骤的设计,尽量减少性能问题。

综上所述,数据分布在数据管理中具有重要的影响,涉及到性能、安全性和一致性等多个方面。了解数据分布情况,能够更好地优化数据的使用、处理和流程,并确保数据的质量和安全性。

数据标准设计

数据标准(Data Standards)是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。

数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,是对数据的名称、含义、结构、取值等信息的统一定义和规范,以达成对数据的业务理解、技术实现的一致。

数据标准管理是指数据标准的制定和实施的一系列活动,包括明确组织职责和制度规范、构建工具、制标和落标等。通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供管理依据。

数据标准是进行数据标准化的主要依据,通过数据标准化,有利于拉通数据,有效提升业务效率和数据质量、促进数据共享。

提升业务效率:数据标准统一了业务语言,明确了业务规则,规范了业务处理过程,从而提升组织整体业务效率,满足管理决策对信息及时性的要求。

提升数据质量:数据标准明确了数据填写及处理要求,规范了数据源的格式,同时提供了管控方面的保障,因此数据标准将直接提高数据质量。

促进数据共享:数据标准统一了各类系统的数据定义,降低了系统间集成的复杂度,提高了系统间交换效率,并为管理分析系统提供了一致的分析指标和分析维度定义。

指标数据梳理

指标数据是指按照确定的计算逻辑,基于交易数据或主数据的一个或多个数据项值加工得到的新数据项,一般由指标名 、指标值、统计口径、指标阈值等组成,又称衍生数据。通过指标数据的标准化,可以统一组织各部门对于指标的理 解,有利于提升统计分析的数据质量。

根据调研报告、IT 系统数据调研表和数据探查结果,明确指标数据的业务用途和目标,确定与目标相关的关键业务指标,如销售额、来客数、经营天数等,进行详细的需求分析,形成需求分析文档:需求指标确认清单(原子指标、衍生指标、复合指标)、指标口径确认清单(业务过程、度量、维度),如下图:

图4 指标数据梳理

数据模型设计

DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

DataArts Studio数据架构建议的数据分层如下

SDI (Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。

DWI (Data Warehouse Integration),又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。

DWR (Data Warehouse Report),又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。

DM (Data Mart),又称数据集市。DM面向展现层,数据有多级汇总。

华为方法论示意图,如下:

图5 华为方法论示意图

分层Mapping设计

在数据仓库和ETL(抽取、转换、加载)领域中,"mapping" 指的是一种规则和逻辑的集合,用于描述如何从源数据抽取、转换和加载到目标数据仓库中的过程。映射定义了源系统中的数据如何映射到目标系统中,以满足数据仓库的数据需求和分析目标。

做Mapping的目的如下:

  • 数据转换: 数据从源系统到数据仓库的过程中,往往需要进行各种数据转换,包括单位转换、日期格式标准化、数据清洗、计算等。编写映射可以明确这些转换规则,确保数据在转换过程中的准确性和一致性
  • 数据整合: 数据仓库通常集成来自多个不同源系统的数据,这些数据可能具有不同的格式和结构。编写映射可以将这些不同的数据整合到一个统一的数据模型中,以便进行分析和报告
  • 数据质量: 数据质量是数据仓库的关键因素之一。编写映射时,可以实施数据清洗、去重、标准化等步骤,从而提高数据的质量,减少错误和不一致性
  • 业务逻辑应用: 在数据仓库中,可能需要应用特定的业务逻辑,例如计算指标、创建层级等。通过编写映射,可以确保这些业务逻辑在数据加载过程中得到正确的应用
  • 性能优化: 编写映射时,可以考虑性能问题,使用合适的索引、分区等方法,以提高数据加载和查询性能
  • 文档和可维护性: 编写映射规则和逻辑可以帮助团队成员理解数据转换和加载的过程。这些文档可以作为日后维护和调整的参考
  • 可复用性: 编写映射可以将数据转换规则和逻辑进行抽象和封装,从而实现可复用性,减少重复劳动

数据质量设计

随着数据类型、数据来源的不断丰富以及数据量的飞速增长,企业面临数据质量问题的概率显著增加。数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。

ISO8000定义:从语法、语义、语用三个方面去定义和衡量数据质量

图6 数据质量设计

企业数据来源于多个不同的业务系统,数据流转、处理环节多,用“Garbage in Garbage out”原则保证数据质量已成为数字化转型企业的共识。企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开,有机结合形成联动。华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。

  • 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
  • 及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
  • 准确性:指真实、准确地记录原始数据,无虚假数据集信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息一致。
  • 一致性:指遵循同一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
  • 唯一性:指同一数据智能有位移的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。
  • 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。

业务指标设计

业务指标是用于度量和评估组织或业务活动绩效的衡量标准。它们是量化的、可衡量的数据点,用于衡量业务的成功、进展和表现。业务指标通常用来帮助组织了解其绩效状况,监控趋势,做出决策和制定战略。

设计有效的业务指标是一个关键的过程,它需要深入了解业务需求、关键绩效指标以及如何从数据中衡量这些指标。以下是设计业务指标的一般步骤

  • 理解业务目标: 首先,深入了解组织的业务目标、战略和重要驱动因素。与业务领导和相关团队交流,确保理解业务的核心需求和关注点
  • 确定关键绩效指标(KPIs): 从业务目标中识别出关键的绩效指标,这些指标能够最直接地反映业务的成功。关键绩效指标应该能够定量地衡量业务的核心结果
  • SMART目标设置: 为每个绩效指标设置SMART目标,确保它们具有明确的特定性、可衡量性、可实现性、相关性和时限性。这有助于确保指标是具体且有意义的
  • 选择适当的度量单位: 为每个指标选择适当的度量单位,如货币、百分比、数量等,以便进行比较和分析
  • 建立度量标准: 为每个指标定义不同层次的表现标准,例如“优秀”、“良好”、“一般”等。这有助于评估业务绩效
  • 数据源和计算逻辑: 确定每个指标的数据来源,以及如何从底层数据计算或聚合出指标。清楚指标的计算逻辑是确保其准确性的关键
  • 数据质量和一致性: 确保指标所使用的数据源具有高质量和一致性。数据的准确性对于有效的指标分析至关重要
  • 时效性和更新频率: 考虑指标的时效性和更新频率。有些指标可能需要实时更新,而其他指标可以更适合定期更新
  • 与业务团队合作: 与业务团队保持紧密合作,确保指标设计与业务需求保持一致,并及时进行反馈和调整
  • 持续改进: 定期审查和更新指标设计,以确保其仍然适用于不断变化的业务环境

技术指标设计

业务指标用于指导技术指标,用于定义指标的设置目的、计算公式等,并不进行实际运算,可与技术指标进行关联。而技术指标是对业务指标的具体实现,定义了指标如何计算。在华为的数据治理方法论中,技术指标直接关联到业务目标,通过将业务需求翻译为可操作的技术指标,确保数据质量和系统性能达到支持业务决策和运营的水平。这种转化过程将抽象的业务需求转变为具体的度量标准,如数据准确性、数据完整性、数据可用性等,以此来量化业务的影响。这种紧密的关联确保了技术指标的有效性,从而为数据质量的实际提升提供了清晰的路径。通过业务指标与技术指标之间的相互转化,华为能够更加有针对性地设计和执行数据治理策略,实现数据对业务的支持和驱动。

根据华为数据治理方法论,技术指标包含:原子指标,衍生指标,复合指标:

  • 原子指标=业务 + 业务过程 + 度量
  • 衍生指标=修饰词 + 业务规则 + 原子指标
  • 复合指标=计算规则 + 衍生指标 / 原子指标
提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容