数据治理平台
数据平台总体架构
本项目一期以离线数据分析为主,按照华为云数据使能方案的离线数据湖子方案,以华为公有云为载体,为客户建设离线数据湖平台,作为本次项目数据分析应用的数据底座。
离线数据湖平台整体架构如下,核心由三个云服务组成,大数据平台MRS、数据仓库平台DWS、数据集成治理平台DataArts Studio。
离线数据湖平台可以向实时数据湖、ITOT融合数据湖、数据资产平台、数据可信流通等其他子方案演进,整体演进方案如下:
华为云数据使能方案为客户提供全栈大数据管理方案,覆盖“采存算管用”的全数据生命周期处理环节,支持公有云、混合云、边缘云等多种基础设施形态,支持向未来平滑演进。
数据仓库服务DWS
GaussDB(DWS)是企业级的大规模并行处理关系型数据库。其采用MPP(Massive Parallel Processing)架构,支持行存储与列存储,提供PB(Petabyte,2的50次方字节)级别数据量的处理能力。数据仓库服务(GaussDB(DWS),简称DWS)是一种在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。DWS是基于华为融合数据仓库GaussDB产品的云原生服务,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。
GaussDB(DWS)在核心技术上跟传统数据库相比有巨大优势,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。DWS可广泛应用于金融、车联网、政企、电商、能源、电信等多个领域,已连续两年入选Gartner发布的数据管理解决方案魔力象限,相比传统数据仓库,性价比提升数倍,具备大规模扩展能力和企业级可靠性。
华为并行数据库基于Shared-nothing/MPP架构,面向开放x86平台,数据跨所有节点均匀分布,所有节点以并行方式工作,提供标准SQL接口,支持SQL92,99,2003标准,支持JDBC/ODBC标准接口,提供多达256个物理节点PB级数据存储分析的扩展能力。
大数据服务MRS
基于MRS,建设企业级云原生数据湖,云原生数据湖主要包括数据湖,数据集市:
- 数据湖:企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者,为数据湖。一份数据支持多种分析,是数据湖最大的特点。数据湖又分为三个阶段:
- 离线数据湖:将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。其中数据从数据源产生后到进入到数据湖存储,无法做到实时,通常超过15分钟。离线数据湖主要用来支撑企业内部T+1小时级别的离线分析和处理。
- (离线数据湖是客户大数据平台的必选,一般的客户做大数据处理都要使用离线数据湖,但是离线数据湖的时效性很低,只能做到小时级处理,已经开始逐渐无法满足各行业需求,因此除非客户坚持目前和未来如果干年对时效性都没有要求,不建议选择离线数据湖)
- 实时数据湖:将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。其中数据从数据源产生后,可以实时进入到数据湖存储,通常在1到15分钟之间。实时数据湖既可以用来支撑企业内部T+1小时级别的离线分析和处理,也可以支撑企业内部实时分析和处理。
- 逻辑数据湖:将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。其中数据并不是在物理上汇聚到了一个数据平台上,而是如果干个物理分开的数据平台形成虚拟数据湖。
- 数据集市:企业内存储特定格式数据,提供给特定类型查询分析,满足特定的业务场景,针对特定用户的,特定的数据平台。各个集市之间,数据会有重复。
数据治理中心 DataArtsStudio
数据治理中心DataArts Studio是针对企业数字化运营诉求提供的数据全生命周期管理、具有智能数据管理能力的一站式治理运营平台,包含数据集成、数据架构、数据开发、数据质量监控、数据目录管理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
- 数据集成
支持批量数据迁移、实时数据集成和数据库实时同步,支持20+异构数据源,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。
- 数据架构
作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。
- 数据开发
大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程。
- 数据质量
数据全生命周期管控,数据处理全流程质量监控,异常事件实时通知。
- 数据目录
提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据目录的数据血缘和数据全景可视,提供数据智能搜索和运营监控。
- 数据服务
标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据目录的变现。
- 数据安全
数据安全为数据治理中心提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别以及合规审计等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。
- 智能数据湖
DataArts Studio集成了丰富的数据引擎,支持对接所有华为云的数据湖与数据库云服务,例如MapReduce服务MRS、数据仓库服务DWS等,也支持对接企业传统数据仓库,例如Oracle。