文档首页/ 数据管理与分析/ 华为云通用数据使能解决方案实践/ 实施步骤/ 数据治理实施专业服务/ 数据使能方案实施

更新时间：2024-04-23 GMT+08:00

查看PDF

数据使能方案实施

图1 数据使能方案实施

物理模型开发

数据采集、数据存储和数据处理等关键组件相互协作，为企业提供了高效、可靠的数据处理能力。在模型设计部分，详细介绍了如何设计数据模型，包括数据表的结构、字段定义和关系等。强调了良好的模型设计对于数据处理的重要性，并提供了一些最佳实践和建议。

在物理模型开发中，除了设计数据模型的结构和字段定义，还需要进行以下步骤：

建立模型目录名称：为了组织和管理数据模型，建议在物理模型开发之前先建立一个模型目录。模型目录可以根据业务需求和数据分类进行命名，例如按照功能模块、数据主题或业务流程等进行分类。这样可以方便团队成员查找和维护模型，提高工作效率。
创建逻辑模型：在物理模型开发之前，通常需要先创建逻辑模型。逻辑模型是基于业务需求和数据分析结果设计的模型，它描述了数据之间的关系和业务规则。逻辑模型可以使用实体关系图（ER图）或其他建模工具进行设计和表示。在创建逻辑模型时，需要考虑数据的实体、属性、关系和约束等。
转化物理模型：一旦逻辑模型设计完成，就可以开始转化为物理模型。物理模型是逻辑模型的具体实现，它定义了数据表的结构、字段定义、索引、分区等细节。在转化物理模型时，需要考虑数据库的特性和限制，选择合适的数据类型、约束和索引等。可以使用建模工具或数据库管理工具来创建和管理物理模型。

在建立模型目录名称、创建逻辑模型和转化物理模型的过程中，需要与业务团队和数据开发团队紧密合作，确保模型的准确性和一致性。同时，建议遵循一些最佳实践和建议，如命名规范、数据类型选择、索引优化等，以提高模型的性能和可维护性。

通过良好的物理模型开发，可以确保数据在存储和处理过程中的准确性和一致性，为后续的数据处理和分析提供可靠的基础。

ETL脚本开发

在开发过程中，开发人员需要仔细阅读并参考开发规范文档，遵循其中的命名规范，并根据mapping表和逻辑文档进行开发，以确保代码的一致性和可读性。

本示例项目以某零售行业客户为例，采用MRS Hudi+DWS湖仓一体化架构。因此ETL开发主要使用两种数据库：MRS HUDI数据库（使用Spark SQL）和DWS数据库（使用DWS SQL）。

ETL是数据处理中的重要环节，它是一个缩写，代表了数据处理的三个主要阶段：

提取（Extract）：在这个阶段，数据从源系统中提取出来。这可能涉及到连接到数据库、读取文件、调用API等操作，以获取源数据。提取的过程需要考虑数据的完整性、准确性和安全性。
转换（Transform）：在这个阶段，提取的数据经过一系列的转换操作，以满足目标系统的需求。转换操作可以包括数据清洗、数据格式转换、数据合并、数据计算等。转换的目的是将数据转化为目标系统所需的结构和格式，并进行必要的数据处理和修正。
加载（Load）：在这个阶段，经过转换后的数据被加载到目标系统中，通常是一个数据仓库或数据湖。加载的过程需要考虑数据的完整性、一致性和可用性。这可能涉及到数据验证、数据校验、数据分区等操作，以确保数据的质量和可靠性。

在现代企业中，数据量庞大且来源多样化，来自不同的数据源和系统。这些数据可能存在于关系型数据库、日志文件、API接口、云存储等各种形式。ETL的目标是将数据从源系统提取出来，并经过转换后加载到目标系统中，以实现数据的集成、一致性和可用性。通过ETL过程，企业可以将分散的数据整合起来，为数据分析、报告和决策提供可靠的基础。ETL还可以帮助清洗和修复数据，提高数据质量，并支持数据的历史追溯和审计。

华为云的DataArts Studio数据治理中心是一个强大的ETL工具和技术，它可以帮助开发人员设计、编写和管理ETL脚本。以下是DataArts Studio在这些方面的主要功能和优势：

可视化的ETL设计：DataArts Studio提供了一个直观的可视化界面，使开发人员能够以图形化方式设计和配置ETL流程。通过拖放组件和连接线，开发人员可以轻松定义数据提取、转换和加载的步骤，而无需编写复杂的代码。
内置的数据转换和处理功能：DataArts Studio提供了丰富的内置转换和处理组件，如数据清洗、数据格式转换、数据合并、数据计算等。开发人员可以直接使用这些组件，而无需自行编写转换逻辑，从而加快开发速度并减少错误。
强大的数据连接和集成能力：DataArts Studio支持与各种数据源的连接和集成，包括关系型数据库、文件系统、云存储、API接口等。开发人员可以轻松地配置数据源连接，并直接从这些数据源中提取数据。
可扩展的脚本编写和管理：虽然DataArts Studio提供了可视化的ETL设计界面，但它也支持自定义脚本编写。开发人员可以使用内置的脚本编辑器编写自定义的ETL脚本，以满足特定的需求。此外，DataArts Studio还提供了ETL脚本的版本控制和管理功能，方便团队协作和脚本的维护。
实时监控和调试：DataArts Studio提供了实时监控和调试功能，开发人员可以实时查看ETL流程的执行状态、数据处理的结果和错误信息。这有助于快速发现和解决问题，提高ETL脚本的质量和可靠性。

通过使用华为云的DataArts Studio数据治理中心，开发人员可以更高效地设计、编写和管理ETL脚本。它提供了可视化的ETL设计界面、内置的数据转换和处理功能、强大的数据连接和集成能力、可扩展的脚本编写和管理功能，以及实时监控和调试功能。这些功能使开发人员能够更快速、更准确地开发和维护高质量的ETL脚本。

数据质量实施

本章节基于数据质量设计，在DataArts上配置质量作业并运行。整体流程可分为以下步骤：

质量作业：质量作业将创建的规则应用到建好的表中进行质量监控。
新建质量作业：在“质量作业”页面单击“新建”，配置相关参数。
管理质量作业：支持对单个质量作业的操作如：运行、启动调度、编辑等。也支持批量运行质量作业，一次最多可批量运行200个。
导出质量作业：支持批量导出质量作业，最多可导出200个。选择要导出的质量作业并单击“导出”。
导入质量作业：支持批量导入质量作业，最大可导入4M数据的文件。
导入质量作业：选择“导入配置”页签，选择模板名称重名策略。如果质量作业名称有重复，则全部导入失败。
作业调度：数据质量作业调度采用流水线方式，配置在整合层作业后面，详细配置方法见相关文档。
运维管理操作：监控质量作业运行状态，包括成功、失败、运行中和告警。成功表示实例正常结束，结果符合预期。
数据质量评分模型：基于DataArts数据质量监控-质量报告，质量评分的满分可设置为5分、10分或100分。默认为5分制，基于表关联的规则评分。评分基于规则评分的加权平均值。
数据质量呈现：查看DataArts Studio数据质量监控->质量报告。

作业调度编排

作业调度编排是将之前开发的集成作业、ETL脚本和数据质量作业有机地组合在一起，以实现数据流的自动化处理和监控。通过作业调度编排，可以根据业务需求和时间要求，合理安排和管理数据处理流程，确保数据的准确性和及时性。

在进行作业调度编排时，可以使用DataArts Studio数据治理中心提供的作业调度功能。该功能允许创建调度任务，并将之前开发的集成作业、ETL脚本和数据质量作业作为任务的组成部分。通过定义任务的触发条件、依赖关系和执行顺序，可以实现复杂的数据处理流程，并确保每个作业在正确的时间和顺序下执行。

此外，作业还可以调用自定义脚本，以实现更高级的调度和编排功能。通过这样的集成，可以进一步提升作业调度的灵活性和可扩展性，满足不同业务场景下的需求。

综上所述，作业调度编排是将集成作业、ETL脚本和数据质量作业结合起来，根据业务需要进行自动化调度和编排的重要环节。通过合理规划和管理数据处理流程，可以确保数据的质量和及时性，为业务决策提供可靠的数据支持。

数据服务开发

数据服务模块提供快速将数据表生成数据API的能力，同时支持将现有的API快速注册到数据服务平台以统一管理和发布。通过数据服务模块，可以将数据仓库集市层中的业务数据转化为易于访问和使用的API。这样，数据应用可以直接从API中获取所需的数据，无需直接访问底层数据表。这种方式不仅提供了更高的数据安全性，还能够简化数据应用的开发和维护过程。

通过将数据转化为API，可以实现数据的实时更新和动态查询。数据应用可以根据业务需求，灵活地调用API获取最新的数据，并进行实时分析和决策。同时，API还可以提供数据的标准化和格式化，确保数据的一致性和可靠性。

综上所述，通过数据服务模块，可以实现数据应用的高效消费和灵活使用。这一步骤将为企业提供更多的数据驱动能力，促进业务的创新和发展。

父主题： 数据治理实施专业服务

上一篇：数据使能技术平台集成实施

下一篇：数据应用集成设计与实施

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问