更新时间:2024-10-23 GMT+08:00
分享

方案概述

项目背景

业务挑战

  • 缺少互信环境和数据流通安全保障;
  • 缺少数据全生命周期监控手段;
  • 数据运营效率低:供需对接,业务审批等均线下操作;
  • 数据治理和产品开发效率低:平台工具多厂商杂乱,标准规范、操作逻辑不统一。

解决方案场景

  • 多场景可信数据流通:数据空间,隐私计算、区块链融合
  • 数据全程合规:数据来源可确认、数据使用经授权、流通过程可追溯、 安全风险可防范
  • 数据高效运营:实现授权、开发、运营、流通、监管等关键业务流程全线上化
  • 凝聚生态,实现商业闭环:依托平台开展二次开发授权,凝聚开发者和供需生态,通过会员制+产品/服务订阅模式实现商业闭环

方案价值

  • 一站式融合数据开发,数据高质量供给。
  • 支撑多个参与全业务方线上化,合规高效运营。

整体方案设计

图1 方案设计图

如上图所示,数据要素流通涉及六类参与方,包括平台运营方、数据提供方、监管方、数据授权运营方、数据需求方、开发利用方。其中平台运营方、授权运营方、开发利用方深度使用华为云Stack云平台和数据底座能力,包括云平台运营中心(智能云管理平台)、数据底座(MRS/DWS等)、数据治理工具(DataArts Studio/ROMA)等云服务和产品。

功能架构

运营平台整体功能设计如下,采用三横两纵架构,三横作为基础平台,主要包含数据底座、数据开发服务、数据授权运营管理三部分。两纵作为支撑部分,主要包含数字信任及数据安全、运维管理二部分。当期建设重点围绕公共数据资源承载,主要建设内容:

图2 功能架构图

运营平台主要建设的功能模块如下:

  • 数据底座:包含IaaS服务模块、PaaS服务模块、隐私计算模块。IaaS模块,提供计算服务、存储服务、网络服务等功能。PaaS服务模块,包提供大数据平台、数据仓库、通用关系型数据库、分布式高性能数据库、内存数据库、数据库复制等功能。隐私计算模块,提供全流程数据处理安全隐私保护能力,包含数据访问权限控制、数据使用审批、数据传输加密、数据密态计算、数据使用审计等功能。

    整体建设核心模块采用国产自主可控产品,实现可信安全、自主可控。提供大数据计算与分析相关技术组件(实时计算、资源调度、内存计算等)。打造湖仓一体、批流一体、存算分离的数据底座架构,实现对多种形态数据的汇聚、存储、计算能力。

  • 数据开发服务:包含数据治理模块、应用开发模块。
  • 授权运营管理:包含资源目录管理、数据资产管理模块。
  • 数字信任与数据安全:包含数据安全系统、数字信任服务模块。
  • 运维管理:包含平台运维中心、平台运营中心、运营指挥中心等模块。

集成架构

当期运营平台与周边平台、协作单位建设平台,进行系统集成对接,形成整体的公共数据开发与运营对外服务能力。

  • 与监督管理方(市委网信办、数据办、大数据中心等):作为数据授权管理方,进行公共数据授权运营管理的系统对接,通过数据场景化数据应用场景授权,进行上位管理。实现一场景、一授权,无场景不授权。
  • 与数据提供方(大数据中心):通过公共数据授权管理进行场景授权管理。授权后,数据通过多种数据汇聚采集方案,其中公共数据资源通过前置机方式,与大数据中心资源平台进行对接,采用批量或实时方式导入运营平台。
  • 与开发利用方:授权主体开发利用,通过运营平台提供统一的数据开发服务工具能力,进行授权数据的加工、治理、服务、开发,实现公共数据、社会数据、行业数据等开发利用。
  • 与数据需求方:数据使用方,如银行、医院、保险、社会用户等,通过授权运营管理平台,进行数据资产的开发使用或数据产品的申请使用,获取相关数据产品。

部署架构

  • 本次运营平台建设主要接入公共数据资源,需依据市政务云管理办法要求建设,进行政务外网区和互联网区两个区域部署,整体方案建设满足三级等保要求。
  • 针对政务外网区和互联网区,本项目规划两个region区域建设,通过政务外网区与大数据中心进行公共数据资源对接,通过互联网区域实现企业数据、部分行业数据的对接,整体符合政务云安全等级保护的要求。从当前实际业务看,本项目大部分数据来源于政务外网区,因此大数据、数仓、数据治理等数据类资源能力和相应数据安全能力主要部署在政务外网区。互联网区域提供来自互联网侧的数据需求方的数据安全访问能力。建设规模随后续企业类相关业务的增长需要再逐步扩容。
图3 部署架构图

关键方案设计

【平台资源与权限配置】

  • VDC整体规划方案

    相关概念:

    VDC是企业组织架构的逻辑映射,最多支持五层,VDC对应了企业的组织部门,VDC层级对应企业组织层级,VDC还提供了云资源配额控制、用户角色权限分配的作用。

    资源集是对云资源的分组,各个资源集之间资源相互隔离,一个VDC可以包含多个资源集,一个资源集只能属于一个VDC或企业项目。资源集可以授权给下级VDC下的用户组,只有授权了相应的资源集才能拥有相关资源权限。

    规划方案:

    图4 VDC整体规划方案

    如上图所示,根据资源划分的需求,将平台三类主要用户划分为三级VDC:

    • 一级平台运营方VDC,作为全局唯一的一级VDC,负责统管全局公共资源,包括数据底座、数据开发工具、xx运营平台资源等;
    • 二级授权运营方VDC,对应具备数据授权运营资质的企业,当前平台仅有一个二级授权运营方VDC,即数据集团;
    • 二级平台建设方VDC,对应负责xx运营平台的建设的ISV,如华傲VDC、统一认证CA的VDC,在对应VDC下分配运维账号用于平台部署和维护;
    • 三级开发利用方VDC,需要唯一归属指定的数据授权运营VDC,根据不同子公司或企业设置不同开发利用方VDC,将 用户添加至不同用户组,控制个人用户的访问权限;

    资源集用于承载云平台的各类云服务资源,各类资源集具体划分如下:

    • 公共服务1资源集,作为生产资源集,归属一级平台运营方VDC,负责承载MRS、DWS、DataArts Studio、ROMA Connect、TICS等生产实例和xx运营平台生产环境;
    • 公共服务2资源集,作为开发测试资源集,归属一级平台运营方VDC,负责承载ROMA Connect开发实例、xx运营平台测试环境;
    • 公共服务3资源集,作为CA认证平台生产资源集,归属一级平台运营方VDC,负责发放CA统一认证系统所需要的各类云主机、数据库、容器集群资源;
    • 公共服务4资源集,作为CA认证平台开发测试资源集,归属一级平台运营方VDC,负责发放CA统一认证系统所需要的各类云主机、数据库、容器集群资源;
    • 开发利用方资源集,按需为开发利用方创建资源集,用于开发利用方相关应用部署;

    一级VDC下的公共资源集需要授权给二级、三级VDC下的用户组,以便各用户组具备公共资源使用权限,具体授权策略如下:

    • 公共服务1、2资源集授权给二级授权运营方VDC,默认拥有全量资源权限;
    • 公共服务1资源集授权给三级开发利用方VDC,默认分配DataArts Studio相关权限,以便进行数据治理开发工作;
    • 公共服务2资源集授权给三级开发利用方VDC,默认分配ROMA Connect相关权限,以便进行数据服务API开发工作;
    • 公共服务3、4资源集授权给二级平台建设方VDC(Builder_CA),以便进行CA资源部署和运维工作;
  • 参与方权限分配与隔离方案:华为云Stack提供三层权限管控体系满足不同租户和用户在平台的权限分配和隔离,如下图所示:
    图5 参与方权限分配和隔离方案图
    • 第一层为组织人员管控,主要解决各方组织架构在华为云Stack的映射,并通过用户组和云服务角色权限实现各参与方用户在平台的权限管控
    • 第二层为数据开发工具管控,主要解决开发利用方在DataArts Studio(简称DGC)和ROMA 工具上的权限管控,这部分主要依赖工具内部的角色权限管控能力
    • 第三层为数据底座管控,主要解决各参与方在数据底座数据存储的权限管控,这部分主要通过对不同数据库账号设置不同的库操作权限实现,依赖MRS、DWS、RDS等数据库实例的权限管控体系

    结合数据授权运营场景需求,各参与方在云平台的权限和隔离详细设计方案参考下表,后续实施指导中严格参考该表的权限和隔离方案进行:

    表1 运营平台各参与方权限分配和隔离方案

    参与方

    云平台

    数据开发工具

    数据底座(数据湖仓等)

    /

    智能云管理平台

    DataArts Studio

    ROMA Connect

    MRS

    OBS

    DWS

    RDS

    平台运营方

    具备一级平台运营VDC管理员账号和权限

    负责创建平台方的开发人员VDC账号

    负责创建授权运营方VDC和相关人员账号

    平台运营方全局唯一,无需隔离

    具备全局实例管理员权限

    负责为平台运营方创建生产和开发工作空间

    负责将平台运营方开发等人员添加到工作空间

    具备全局ROMA实例的管理员权限

    具备MRS服务管理员权限

    按需根据提供方创建对应贴源库和标准库,并作为库Owner

    按需为开发利用方分配MRS库,并提供读写权限账号

    按需为开发利用方授权平台运营方公共库只读权限

    具备OBS服务的管理员权限

    按需为平台运营方和开发利用方分配MRS数据库目录和自定义角色权限

    具备DWS服务管理员权限

    按需为平台运营方、开发利用方分配DWS库权限

    按需为开发利用方分配DWS库权限

    具备RDS服务管理员权限

    负责为数据库提供方发放前置机RDS实例和账号

    授权运营方

    具备二级授权运营VDC管理员账号和权限

    负责三级开发利用方VDC创建和对应开发、测试等人员账号创建

    多个不同授权运营方通过不同二级VDC隔离

    具备被授权实例管理员权限

    负责为不同开发利用方创建生产和开发空间

    负责并将开发利用方开发等人员添加到空间

    具备被授权ROMA实例的管理员权限

    按需为开发利用方和需求方创建ROMA应用

    暂不分配账号

    暂不分配权限

    暂不分配账号

    暂不分配账号

    开发利用方

    具备三级开发利用方VDC普通用户账号

    不同开发利用方通过不同VDC进行隔离

    具备开发利用方工作空间开发、运维、测试权限

    不同开发利用方通过不同工作空间隔离

    具备ROMA开发实例下指定应用的管理员权限

    不同开发利用方通过不同ROMA应用隔离

    具备分配给开发利用方对应MRS库读写权限

    具备分配给开发利用方对应公共库的只读权限

    不同开发利用方通过不同MRS账号隔离

    不同开发利用方提交的任务通过不同的MRS租户隔离

    具备OBS服务只读权限

    具备开发利用对应MRS库所在OBS目录的读写权限

    具备分配给开发利用方对应DWS库读写权限

    不同开发利用方通过不同DWS账号隔离

    不同开发利用方提交的后台作业通过不同队列隔离

    按需分配RDS实例账号读写权限(暂无场景)

    不同开发利用方通过不同RDS实例和账号隔离

    数据提供方

    无权限

    无权限

    无权限

    无权限

    无权限

    无权限

    按来源方分配RDS实例,并创建Database进行隔离

    仅具备数据库地址和读写权限的账号给提供方

    数据需求方

    无权限

    无权限

    在ROMA生产实例分配客户端应用,并提供appkey、appsecret

    不同数据需求方通过不同的客户端应用隔离

    无权限

    无权限

    无权限

    无权限

    监督管理方

    按需在平台运营方VDC分配只读权限账号

    按需分配各工作空间访客权限

    按需分配各ROMA应用只读权限

    按需分配MRS只读账号权限

    按需分配OBS只读账号权限

    按需分配DWS只读账号权限

    按需分配RDS只读账号权限

    为实现上表中各参与方的权限分配和隔离,华为云Stack提供了完善的角色、权限、用户组等模型支撑用户的权限管理,具体逻辑关系模型参考下图:

    图6 逻辑关系模型图

    华为云Stack的账号权限管理整体上总体上分成三部分,后续各场景下的角色授权操作将参考该逻辑模型图进行实施:

    智能云管理平台角色权限

    • 智能云管理平台提供华为云Stack账号的统一管理能力,为各个参与创建华为云Stack的登录账号并设置相关云服务的访问权限
    • 智能云管理平台提供了VDC默认角色和各类云服务细粒度角色用于云服务权限管控。默认角色包括VDC管理员、VDC业务员、VDC只读用户,默认具备所有云服务的相关权限,比如VDC只读用户可以查看所有云服务但不能进行任何操作
    • 针对需要限制账号的仅具备特定云服务权限的场景,智能云管理平台支持各云服务的细粒度权限创建自定义角色进行控制,比如DataArts Studio User角色,只能访问DataArts Studio服务,ROMA Administrator只能访问ROMA Connect服务
    • 为方便角色统一授权,通常需要将用户账号添加到一个自定义用户组,通过给用户组授权相关角色实现对组内所有用户的授权
    • 针对用户组角色的授权,需要在指定的资源集下进行,所有的角色权限都是需要关联到资源集
    • 智能云管理平台账号能在个人中心下载AK/SK,用于相关云服务的访问,如OBS服务等

    数据开发工具权限

    • 数据工具主要包括DataArts Studio(简称DGC)和ROMA Connect两部分,各参与方可直接通过智能云管理平台账号登录华为云Stack进行数据工具服务的访问和操作
    • DataArts Studio中提供了数据空间进行不同开发利用方的隔离,工作空间中提供了管理员、开发、运维、访客4类默认角色,支持自定义新角色,用于DataArts Studio中功能的细粒度控制
    • ROMA Connect中提供了应用进行不同开发利用方的隔离,应用下提供了admin、modify、delete权限用于控制不同账号在应用下API操作权限

    数据底座角色权限

    • 数据底座目前主要包括MRS数据湖、DWS数据仓库、RDS关系型数据库三类
    • 默认情况下开发利用方不分配MRS、DWS、RDS云服务的权限,只能通过由平台运营方管理员分配的数据底座相关账号进行数据访问
    • 不同开发利用方通过不同的MRS账号进行隔离,需要在MRS集群的管理系统FusionInsight Manager(简称FI系统)上创建MRS账号。FusionInsight Manager上预置了各类角色进行账号权限的管控,确保相关账号仅具备授权组件的访问权限,比如限制只能访问Hive、Yarn或只能向某个MRS队列提交任务等
    • MRS的账号目前主要用于Hive数据库权限的分配,这部分是通过FusionInsight Manager上提供的Ranger图形化管理界面实现的。Ranger支持通过自定义Policy策略为指定的FusionInsight Manger用户组设置指定数据库的细粒度读写权限,从而确保MRS的账号仅能基于指定的操作权限访问指定的Hive数据库
    • 该项目中MRS数据湖采用存算分离架构,因此在分配MRS数据库账号的同时,需要对该账号对应的智能云管理平台账号进行OBS权限的管控,确保相应的智能云管理平台账号也只能在对应的OBS目录下进行数据的读写操作
    • 通过智能云管理平台中自定义OBS角色授权给指定用户组来实现开发利用方OBS权限的管控,同时OBS角色需要通过自定义委托并映射到MRS用户组,实现MRS下对应用户组对OBS的细粒度权限管控
    • DWS数据仓库中,不同开发利用方通过不同的Schema进行隔离,平台运营管理员通过命令行为开发利用方创建DWS数据仓库账号,并设置对应Schema的读写权限
    • RDS关系型数据库中,不同开发利用方通过不同的RDS实例和Database进行隔离,平台运营管理员在指定的RDS实例创建Database和数据库账号,并将Database的读写权限授权给对应数据库账号

【数据授权运营平台集成】

授权运营平台包括门户、资源目录、业务中心、资产管理、统一用户体系、统一适配组件组成。

  • 统一用户:数据底座与授权运营管理平台多套系统统一用户,实现业管用户、角色、权限一体化,多系统单点登录和权限控制。
  • 统一目录:统一资产管理平台与数据底座多系统元数据集成对接,实现湖内、湖外统一数据目录、统一资产目录、数据血缘呈现与关系追踪。
  • 统一授权:授权管理平台与数据底座集成对接,基于湖仓一体、存算分离架构,实现湖内、湖外用户场景与数据权限的统一下发。
图7 周边系统集成关系(对接MO)
图8 DGC/MRS/DWS集成描述
图9 ROMA集成描述

DataArk统一工作台

数智融合集成服务DataArk是融合华为DGC、ROMA等自有数据服务、集成生态伙伴治理能力、赋能行业场景经验的一站式数智融合集成使能平台。基于数据要素流通场景,DataArk实现:

  • 开放框架,集成华为云Stack数据服务,提供统一API出口,简化运营平台对接。实现华为DGC、ROMA等自有云服务和集成生态伙伴的统一用户和统一角色权限管理,降低用户角色授权操作复杂度;
  • 数据贯通,流程导航,提供资产共享与再部署能力,数据治理资产快速复用,提升开发利用方操作效率。
图10 授权运营平台对接设计

【数据服务计量】

xx项目中,对于数据服务API的访问,需要进行计量和日志审计,要求能够记录访问请求的request header与request body等详细信息。ROMA自带的日志信息系统无法记录访问的详细信息,因此本文档给出了基于roma的kafka日志插件的一套方案。

图11 数据服务计量
  • 通过ROMA自身的插件功能,使用Kafka日志插件将API调用的日志详细信息(含response header和responsebody等信息)推送至ROMA的MQS中。
  • 通过ROMA的FDI功能,将MQS中的日志信息实施的解析并导入至DWS的表格中。
  • 通过将DWS的数据封装为API,提供计量数据和日志检索数据。

整体方案优势

  • 湖仓一体存算分离:核心平台采用业界当先的湖仓一体、存算分离架构,实现对海量的多类型数据资源进行7种汇聚方式,并实现数据分层计算存储,减少无效搬迁,一份入湖,多源使用。存算分离架构支撑未来PB级别、低成本存储计算扩容,支持与底层计算引擎融合的架构能力。
  • 信创平台数据安全:整体平台安全可信。其中核心数据存储、计算模块符合国家信创要求,周边平台模块全部采用国产化、依托于自主可控技术能力建设。

    全流程的数据安全能力。面向数据要素流通、数据资源要素化,提供身份管理、印章管理、签名验签、授权访问、权限控制等能力,并针对数据采集、传输、存储、加工、流通全流程提供数据分级分类、存储加密、数据脱敏、数据水印、授权访问等能力建设。

  • 一站式便携使用:便捷使用、全流程一站式的开发工具,面向开发按需使用。建设xx平台建设数据开发服务模块,包含数据治理服务、数据API服务、数据产品服务、应用开发服务等。面向数据运营商、企业、社会开发者提供丰富的数据开发服务,实现数据资源到数据资产、数据产品应用能力。
  • 统一市场运营管控:面向数据要素流通,进行统一产品上线流程,并全流程运营管理。建设授权管理系统模块,提供运营门户、运营管理系统,面向数据开发利用方、数据需求方等数据要素市场主体进行服务,实现用户注册、场景申请、数据商品市场、开发工具市场、算力市场、授权管理等服务能力。实现授权运营的全面流程管理、运营审核,助力数据产品、数据要素可信流通。

相关文档