链接复制成功!
云项目管理
企业的云化转型对目标、范围、进度、成本和质量要有清晰的定义,需要作为一个标准的项目进行运作,然而,企业的云化转型是一项系统性工程,涉及组织、流程和技术的方方面面,它是一个持续时间长达数年的复杂项目,科学的项目管理方法和行动方案直接影响云化转型的效率和质量,最终将会影响云化目标的实现。
云化转型项目的管理通常涵盖可行性评估、项目准备、项目启动、项目过程管理、业务上线管理和业务保障。基于华为云项目管理和交付经验,通常会采用如下图的方法来管控整个企业云化转型的过程。接下来,本文将围绕该流程针对每一部分进行概要说明。

可行性评估
一个企业在上云之初,企业决策层通常想了解上云最终能给企业带来什么价值,以及这些价值是否是企业当前以及未来业务发展所迫切需要的。为了解这些信息,通常决策层会让IT部门评估上云的价值和收益,而IT部门通常具备传统IT运营理念和IDC技术栈,缺乏对云深入的了解以及实践。这时,就需要引入云化转型专家协助信息化团队完成价值评估,这个阶段称之为可行性评估和蓝图规划阶段。在这个阶段,通常是由云化转型专家主导、IT部门辅助,共同完成当前业务、组织、运营、平台、安全、运维等多个维度的现状评估,根据评估结论和差距分析,估算云化转型能带来的价值和收益,并给出云化后整体蓝图规划设计。通过这一系列行动论证云化可以满足当前和未来业务发展的迫切需要,并让决策层看到云化后的业务连续性和业务敏捷性的提升以及业务创新能力的增强,加速决策层做出科学、合理的决策。
项目准备
决策层做出云化决策后,项目进入启动前的准备阶段。准备阶段主要目的是为项目启动提供完整的项目目标、项目范围、项目计划、项目管理机制、项目验收标准,并组建项目团队。为实现这一目的,需要在该阶段与客户确认云化工作的范围和边界,明确云化要实现的目标,并根据云化转型项目影响到的组织范围,构建联合项目团队,并提前和相关组织做好预沟通工作(如项目计划排程、责任分工、参与的阶段与角色,主要工作内容等)。项目计划需要在启动会前完成设计,并和业务部门等周边相关部门确认好时间计划、人员投入和资源就绪情况等。项目管理机制是项目顺利开展的关键环节,包含项目例会管理、项目风险管理、项目变更管理以及项目汇报机制,通过一系列机制保障项目在复杂场景下有序、平滑地开展。项目验收方案需要提前明确,基于项目目标以及业务诉求明确验收用例、验收指标、验收标准,确保业务系统上云后的功能和性能指标满足要求,这一步通常需要提前拉通业务部门和用户进行核心业务流程、关键指标的确认,并由业务部门负责最终输出业务验收指标。任何项目的执行都离不开人,所以准备阶段必须组建一个项目团队,也就是前面提到的CCoE团队,具体如何筹备和组建CCoE团队,请查看章节 云卓越中心 的内容。
在完成上述项目准备工作之后,需要举行正式的项目启动会。项目启动会的目的是将云化转型项目正式定义为一个真正意义上的工作任务,是一个有目标、有计划、有组织、有任命、有监督和考核的正式任务,确保项目成员按照责任界面和项目计划各司其职以达成项目目标。项目启动会参与者是CCoE的全体成员以及云服务商的项目团。
项目启动会中一个重要且关键的环节就是组织任命和授权。通过对项目团队的正式任命和授权将云化转型项目作为一个正式任务和KPI下发到每个组织成员头上。一方面确保组织成员的工作是正当、明确且可衡量的,同时也保证项目成员的稳定性,并激发团队成员完成目标的热情。
在项目启动会中,除了项目团队的任命和授权,还需要明确项目汇报监督机制。项目有个多个实施阶段,每个阶段的执行结果是否能达到预期?是否存在卡点和问题?项目团队是否具备处理这些问题的资源和能力?这些都是项目团队在执行过程中所面临的问题,如何快速高效处理问题,通常取决于对问题的理解和项目团队对资源的掌控能力,但仅仅依靠项目团队很难解决所有问题,因此,定期会议、高层汇报至关重要。通常在项目交付中,我们建议采用敏捷项目管理模式,即每日站会+周会的形式来快速识别阶段卡点和问题,快速找到应对机制来快速闭环,将问题解决周期尽可能缩短。站会和周会的机制可以让项目卡点快速通达决策层,依靠决策层的能力快速拉通资源来闭环问题,这就是上述我们提到的质量监督机制。通过这种机制,集合企业最高层的能力来确保项目成功,这也是项目高效、高质量交付结果的精髓所在。
除了组织任命和授权、汇报监督机制,项目启动会还需要定义项目日常运作管理机制(日报、周报、问题上升机制等)、风险变更机制(人员变更、周期变更、环境变更等)以及跨团队间的分工协作机制,这些通常可以参考常规的项目管理方法进行管理和运作。
项目过程管理
该阶段主要包含项目进度管理、汇报管理、风险管理、以及变更管理等部分。在前面我们已经提到进度管理、汇报管理的关键环节,如通过敏捷管理(站会、周会等)持续对齐目标和周期,确保项目进度在预期可控范围内;通过拉通高层周期性汇报机制快来监督项目进展和风险,以达到快速闭环问题和卡点的目的。云化转型项目实施和管理过程中风险通常包括项目周期风险、人员变更风险、技术可行性风险、操作风险、安全风险等。接下来主要针对风险管理(包括变更管理)以及敏捷管理方法做概要介绍。
项目进度风险通常是云化转型项目因各种超出预期的事件或问题导致项目周期延后,如新业务发布上线、关键业务数据库故障、病毒感染等事件,都会对项目实施周期带来影响,因此项目团队应充分考虑可能遇到的问题或风险来制定项目周期。应对项目周期风险的策略通常是综合评估各个阶段可能存在的风险,并预留适度的项目周期,并针对某些极端风险制定逃生方案,尽可能确保项目在规定的时间内完成。
对于人员变更风险,是云化转型项目管理过程中经常碰到的风险场景,项目开始前必要的角色备份非常必要。针对某些单人单岗的关键角色,尤其需要考虑变更带来的风险,如一个公司一个DBA等情况,项目经理需要针对这一问题在项目开始前就要做备份计划,特定情况可以跨部门人员备份或提前进行人员储备,这一风险不仅仅云化转型项目管理中的问题,更是企业核心业务是否能可持续运营的风险问题。
技术风险的应对机制相对来说更为可控,项目团队通常可以采用POC验证的方式验证技术的可行性,这包括功能是否满足当前业务运行需求,以及非功能性部分是否可以满足业务运行的性能、延迟、吞吐量等指标等。同时针对迁移过程中的技术风险,项目团队可以通过迁移割接演练来模拟迁移实施过程,从中发现潜在的风险和问题,并形成Runbook来应对和规避相应风险。
云化转型项目实施过程中的操作风险与传统项目操作风险处理方式存在差异,原因在于传统IT项目实施基于硬件平台和系统实施操作,关键操作常常是多人共同参与,一个人操作,多人监督,确保操作和预期的一致。而云化转型项目的操作实施基于网络进行,业务和平台高度集成,一个操作失败可能影响多个组件或服务。因此,云上操作风险处理通常建议采用自动化的方式进行,尤其在业务系统割接上线的环节,尽可能减少人为带来的误操作风险。简而言之,能脚本化、自动化的就不手工操作,能工具化的就不用脚本操作,全面消除人为操作风险。
云化转型的项目管理对安全要求较高,如针对业务系统上云环节,要秉持“上云不带病、带病不上云”的基本原则,因此上云前项目团队通常要进行必要的问题巡检和安全扫描,这些工作涉及硬件、系统、中间件以及应用的状态、日志、事件、告警信息等部分,以及采用安全扫描工具进行系统的安全扫描,确保现有的系统运行是健康且没有潜在运行风险的。
相较于传统IT项目,云化转型项目虽然没有集成各个不同硬件厂商、不同ISV的复杂性和漫长的交付执行周期,但交付执行过程涉及面广、平台集成度高,问题处理过程复杂,致使云化转型项目的管理过程往往容易形成集中式卡点和风险,一个功能点不足都可能拖延整个项目周期。因此传统瀑布式项目管理模式往往无法适应云化转型项目的管理,敏捷项目管理模式则更有成效。
前面章节已经概要说明了项目问题处理的方法,如每日站会、每周例会等,实现项目卡点的快速审视、拉通和闭环,从根本上说这些方法和策略都是敏捷项目管理的一种形式。归根结底,敏捷项目管理模式也是一种逆向工作法思路,也即在项目开展过程的各个阶段,分别设定阶段交付的目标,通过在执行过程中不断审视当前进展、卡点或问题,并通过与阶段性目标对齐,寻求最快、最短的解决路径。作为一个云化转型的项目经理,应充分明确各个阶段的目标,在每个阶段执行过程中(如卡点、问题处理、风险应对举措等)持续与本阶段目标对齐,从实现目标的角度出发来解决当前问题,可以快速发现更加合适的方法和策略。
敏捷项目管理需要基于敏捷管理工具实现,将敏捷管理流程和工具结合形成快速闭环的过程管理能力。常用的敏捷管理工具包括Jira,也可以使用华为云提供的云原生项目管理工具CodeArts Req。CodeArts Req和华为云的云原生DevOps工具链CodeArts的其他工具无缝打通,可以有效提升端到端项目管理和应用交付的效率。
业务系统上线管理
业务系统上线管理的目的是保障业务系统上线过程中业务依然能够平稳运行,将对业务的影响和风险降低或消除。业务系统上线管理涵盖环境准备、组织宣贯、风险应急和割接上线实施等环节。
业务系统割接上线前云环境准备通常包含业务环境部署,数据同步(如迁移场景)、周边业务系统协同配置、内外部连通性确认等等,通过这些前提准备提前完成业务系统正常运行的基础平台环境的搭建,确保业务系统上线所需的基础环境处于就绪状态。
组织宣贯在割接上线前是一个关键环节,尤其是在传统企业初始上云的场景下。通过组织宣贯让所有项目成员和相关人员各司其职,通力配合完成业务系统上线工作(如上线影响说明、角色分工、配合实施内容、配合时间点、问题反馈机制等等),确保业务系统上线的每个流程、指标都可以得到验证并成功上线。另一方面,企业高层可以通过组织宣贯向公司内部传达一个关键信息:企业上云是公司未来的战略,每个组织、个人都应积极转换思想、意识,来积极主动拥抱云、拥抱企业数字化未来。
风险应急准备是每个业务系统上线前必要的环节,需要提前识别上线可能遇到的风险和问题并制定解决方案。风险识别不限于在技术实施过程中遇到的各类风险,还包括组织、流程、安全以及平台的系统性风险。如常年运行的系统可能存在硬件损坏无法修复的风险、业务系统运行环境潜藏破坏性病毒、业务系统上线环节上遗漏关键角色等等,每个风险都可能成给业务系统上线带来破坏性影响,提前识别、提前制定预案并进行必要环节的演练,尽可能将风险影响降低或消除。
割接上线实施是业务系统上线前最后一个环节,也是最关键的环节,但通常前期准备和风险应急工作充分、验证过程完善,割接过程基本都会比较顺利。在这个环节,主要做的工作就是按照前期演练完善的手册进行系统化验证,根据指标确定割接是否成功。一个关键的要点是本阶段是一个人员密集型工作阶段,组织宣贯阶段所有人员均需按照宣贯要求在不同的执行环节参与进来,并按标准要求执行相关动作和验证相关过程和结果,并为结果负责(通常需要签字验收指标通过)。基于所有反馈结果来最终判断割接是否成功。
业务保障
业务系统上线后,进入业务系统的上线保障期,上线保障期的工作内容涵盖保障期问题处理和闭环以及知识转移等事项。保障期通常是上线后一周,这个周期内通常是上云后问题高发期,是云化转型项目团队要重点关注和保障的阶段,通常云服务商会有专门保障团队和企业形成联合项目团队共同保障业务平稳运行。在这个阶段,基于业务部门提出的问题按照业务关键性等级和问题等级区分出轻重缓急,基于不同的紧急重要程度快速响应和闭环。知识转移则是在业务系统上线后,需要为业务部门的应用运维团队进行云技术的赋能,保证应用运维团队具备在云平台上对业务系统进行必要的日常运维管理和事件处理的能力。