数据使能方案设计
在完成数据使能的4A架构设计后,即可进行数据使能方案设计。数据使能方案设计是数据管理实施专业服务的核心工作,在这个过程中,交付团队会完成流程目录梳理、数据资产目录设计、数据分布梳理、数据标准设计、指标数据梳理、数据模型设计、分层Mapping设计、数据质量设计、业务指标设计、技术指标设计、数据应用设计等工作。最终支撑数据使能解决方案的落地。
流程目录梳理
流程目录(Process Catalog)是一个用于记录和组织企业各类业务流程的集合,它包含了组织内外各个层级的业务流程、主题域分组、主题域、业务对象等信息。流程目录的设计和维护有助于企业在业务管理、流程优化和信息共享方面取得更好的效果。
输出的内容主要有以下两种,业务架构图:
数据资产目录设计
随着数字化转型的推进,企业面临着越来越大的复杂的数据资源,在信息爆炸的背景下,企业内部的数据往往分散在各种系统的部门中,导致数据孤岛现象,造成数据的冗余和低效利用,同时数据管理和治理面临着越来越严峻的挑战。为有效应对这些问题,通过资产的目录的梳理,建立一个全面的、统一和可视的数据资产清单,涵盖企业内部所有数据资源。资产目录将为数据管理和治理提供基础,帮助企业更好地优化数据使用、共享和流转,降低数据管理的复杂性。
信息架构(Information Architecture):企业级信息架构是以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。
数据资产目录是一个组织或企业中用于管理和组织数据资产的结构化文档或系统。它记录了组织内部存在的各种数据资产,包括但不限于数据库、数据集、文件、报告、元数据等信息。数据资产目录的主要目的是为了帮助组织更有效地管理、控制和利用其数据资源。
数据资产目录有如下作用:
- 数据资产清单:资产目录提供了企业内部所有数据资产的全面清单,包括数据库、表、文件等。它帮助组织了解所有数据资产的属性、用途、所属部门和数据血缘关系,为数据资产提供统一的视图和描述
- 数据管理和治理:资产目录为数据管理和治理提供了基础。通过明确数据资产的归属、负责人和使用规则,资产目录帮助企业更好地管理数据资源,减少数据冗余和重复存储,提高数据质量和安全性
- 数据流程优化:资产目录揭示了数据资产之间的关联和流转路径,帮助企业优化数据流程和数据使用。它使数据流程更加高效,减少数据的滞留和延误,提升数据使用的效率和价值
- 数据决策支持:通过资产目录,企业能够更准确地了解数据资源,从而做出更准确的数据驱动决策。它为业务洞察和智能决策提供依据,推动业务增长和竞争优势
- 数字化转型基础:资产目录是数字化转型的基础设施之一。它帮助企业在数字化转型过程中优化业务流程,提升数字化能力,实现业务模式的创新和提高竞争力
- 数据合规和隐私保护:通过资产目录,企业能够更好地管理和控制敏感数据,确保数据的合规性和隐私保护,降低数据泄露和安全风险
数据分布梳理
数据分布指的是数据在不同的存储系统、节点或位置之间的分布情况。了解数据在哪里存储,如何分布,以及分布情况的变化对数据处理、查询性能和数据安全都非常重要。
在数据资产目录中记录数据的分布信息可以帮助数据使用者更好地了解数据的物理存储位置。这对于查询性能优化很有帮助,使用者可以根据数据分布情况选择更合适的查询方式。此外,了解数据存储位置也有助于数据的隐私和安全管理
在数据流程目录中了解数据的分布情况非常重要。如果数据在不同的节点上分布,数据流程需要考虑如何处理数据移动和传输。避免不必要的数据复制和传输可以提高流程的效率,并减少资源开销。同时,了解数据分布还可以影响数据转换和处理步骤的设计,尽量减少性能问题。
综上所述,数据分布在数据管理中具有重要的影响,涉及到性能、安全性和一致性等多个方面。了解数据分布情况,能够更好地优化数据的使用、处理和流程,并确保数据的质量和安全性。
数据标准设计
数据标准(Data Standards)是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,是对数据的名称、含义、结构、取值等信息的统一定义和规范,以达成对数据的业务理解、技术实现的一致。
数据标准管理是指数据标准的制定和实施的一系列活动,包括明确组织职责和制度规范、构建工具、制标和落标等。通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供管理依据。
数据标准是进行数据标准化的主要依据,通过数据标准化,有利于拉通数据,有效提升业务效率和数据质量、促进数据共享。
提升业务效率:数据标准统一了业务语言,明确了业务规则,规范了业务处理过程,从而提升组织整体业务效率,满足管理决策对信息及时性的要求。
提升数据质量:数据标准明确了数据填写及处理要求,规范了数据源的格式,同时提供了管控方面的保障,因此数据标准将直接提高数据质量。
促进数据共享:数据标准统一了各类系统的数据定义,降低了系统间集成的复杂度,提高了系统间交换效率,并为管理分析系统提供了一致的分析指标和分析维度定义。
指标数据梳理
指标数据是指按照确定的计算逻辑,基于交易数据或主数据的一个或多个数据项值加工得到的新数据项,一般由指标名 、指标值、统计口径、指标阈值等组成,又称衍生数据。通过指标数据的标准化,可以统一组织各部门对于指标的理 解,有利于提升统计分析的数据质量。
根据调研报告、IT 系统数据调研表和数据探查结果,明确指标数据的业务用途和目标,确定与目标相关的关键业务指标,如销售额、来客数、经营天数等,进行详细的需求分析,形成需求分析文档:需求指标确认清单(原子指标、衍生指标、复合指标)、指标口径确认清单(业务过程、度量、维度),如下图:
数据模型设计
DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。
DataArts Studio数据架构建议的数据分层如下
SDI (Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。
DWI (Data Warehouse Integration),又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。
DWR (Data Warehouse Report),又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。
DM (Data Mart),又称数据集市。DM面向展现层,数据有多级汇总。
华为方法论示意图,如下:
分层Mapping设计
在数据仓库和ETL(抽取、转换、加载)领域中,"mapping" 指的是一种规则和逻辑的集合,用于描述如何从源数据抽取、转换和加载到目标数据仓库中的过程。映射定义了源系统中的数据如何映射到目标系统中,以满足数据仓库的数据需求和分析目标。
做Mapping的目的如下:
- 数据转换: 数据从源系统到数据仓库的过程中,往往需要进行各种数据转换,包括单位转换、日期格式标准化、数据清洗、计算等。编写映射可以明确这些转换规则,确保数据在转换过程中的准确性和一致性
- 数据整合: 数据仓库通常集成来自多个不同源系统的数据,这些数据可能具有不同的格式和结构。编写映射可以将这些不同的数据整合到一个统一的数据模型中,以便进行分析和报告
- 数据质量: 数据质量是数据仓库的关键因素之一。编写映射时,可以实施数据清洗、去重、标准化等步骤,从而提高数据的质量,减少错误和不一致性
- 业务逻辑应用: 在数据仓库中,可能需要应用特定的业务逻辑,例如计算指标、创建层级等。通过编写映射,可以确保这些业务逻辑在数据加载过程中得到正确的应用
- 性能优化: 编写映射时,可以考虑性能问题,使用合适的索引、分区等方法,以提高数据加载和查询性能
- 文档和可维护性: 编写映射规则和逻辑可以帮助团队成员理解数据转换和加载的过程。这些文档可以作为日后维护和调整的参考
- 可复用性: 编写映射可以将数据转换规则和逻辑进行抽象和封装,从而实现可复用性,减少重复劳动
数据质量设计
随着数据类型、数据来源的不断丰富以及数据量的飞速增长,企业面临数据质量问题的概率显著增加。数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。
ISO8000定义:从语法、语义、语用三个方面去定义和衡量数据质量
企业数据来源于多个不同的业务系统,数据流转、处理环节多,用“Garbage in Garbage out”原则保证数据质量已成为数字化转型企业的共识。企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开,有机结合形成联动。华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。
- 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
- 及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
- 准确性:指真实、准确地记录原始数据,无虚假数据集信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息一致。
- 一致性:指遵循同一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
- 唯一性:指同一数据智能有位移的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。
- 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。
业务指标设计
业务指标是用于度量和评估组织或业务活动绩效的衡量标准。它们是量化的、可衡量的数据点,用于衡量业务的成功、进展和表现。业务指标通常用来帮助组织了解其绩效状况,监控趋势,做出决策和制定战略。
设计有效的业务指标是一个关键的过程,它需要深入了解业务需求、关键绩效指标以及如何从数据中衡量这些指标。以下是设计业务指标的一般步骤
- 理解业务目标: 首先,深入了解组织的业务目标、战略和重要驱动因素。与业务领导和相关团队交流,确保理解业务的核心需求和关注点
- 确定关键绩效指标(KPIs): 从业务目标中识别出关键的绩效指标,这些指标能够最直接地反映业务的成功。关键绩效指标应该能够定量地衡量业务的核心结果
- SMART目标设置: 为每个绩效指标设置SMART目标,确保它们具有明确的特定性、可衡量性、可实现性、相关性和时限性。这有助于确保指标是具体且有意义的
- 选择适当的度量单位: 为每个指标选择适当的度量单位,如货币、百分比、数量等,以便进行比较和分析
- 建立度量标准: 为每个指标定义不同层次的表现标准,例如“优秀”、“良好”、“一般”等。这有助于评估业务绩效
- 数据源和计算逻辑: 确定每个指标的数据来源,以及如何从底层数据计算或聚合出指标。清楚指标的计算逻辑是确保其准确性的关键
- 数据质量和一致性: 确保指标所使用的数据源具有高质量和一致性。数据的准确性对于有效的指标分析至关重要
- 时效性和更新频率: 考虑指标的时效性和更新频率。有些指标可能需要实时更新,而其他指标可以更适合定期更新
- 与业务团队合作: 与业务团队保持紧密合作,确保指标设计与业务需求保持一致,并及时进行反馈和调整
- 持续改进: 定期审查和更新指标设计,以确保其仍然适用于不断变化的业务环境
技术指标设计
业务指标用于指导技术指标,用于定义指标的设置目的、计算公式等,并不进行实际运算,可与技术指标进行关联。而技术指标是对业务指标的具体实现,定义了指标如何计算。在华为的数据治理方法论中,技术指标直接关联到业务目标,通过将业务需求翻译为可操作的技术指标,确保数据质量和系统性能达到支持业务决策和运营的水平。这种转化过程将抽象的业务需求转变为具体的度量标准,如数据准确性、数据完整性、数据可用性等,以此来量化业务的影响。这种紧密的关联确保了技术指标的有效性,从而为数据质量的实际提升提供了清晰的路径。通过业务指标与技术指标之间的相互转化,华为能够更加有针对性地设计和执行数据治理策略,实现数据对业务的支持和驱动。
根据华为数据治理方法论,技术指标包含:原子指标,衍生指标,复合指标:
- 原子指标=业务 + 业务过程 + 度量
- 衍生指标=修饰词 + 业务规则 + 原子指标
- 复合指标=计算规则 + 衍生指标 / 原子指标