云架构中心
云架构中心
本产品内“
”的所有结果
本产品内“
”的所有结果
卓越架构技术框架与实践
卓越架构技术框架简介
韧性支柱
韧性支柱简介
基本概念
概念表
什么是应用韧性
责任共担模式
可用性目标定义
可用度及SLO
RTO与RPO
数据持久度
可用性需求
设计原则
问题和检查项
高可用设计
RES01 冗余
RES01-01 应用组件高可用部署
RES01-02 应用组件多位置部署
RES01-03 云服务器反亲和
RES02 备份
RES02-01 识别和备份应用中所有需要备份的关键数据
RES02-02 自动数据备份
RES02-03 定期进行备份数据恢复
RES03 跨AZ容灾
RES03-01 集群跨AZ部署
RES03-02 跨AZ数据同步
RES03-03 对接容灾仲裁,支持自动切换
RES03-04 支持容灾管理
RES04 跨Region/跨云容灾
RES04-01 定义应用系统的容灾目标RPO与RTO
RES04-02 部署容灾系统以满足容灾目标
RES04-03 容灾恢复过程自动化
RES04-04 定期进行容灾演练,以检查恢复能否满足容灾目标
RES05 网络高可用
RES05-01 网络连接高可用
RES05-02 避免暴露不必要的网络地址
RES05-03 不同流量模型业务的网络共享带宽隔离
RES05-04 预留IP资源以便扩展及高可用
故障全面检测
RES06 故障检测
RES06-01 故障模式分析
RES06-02 面向所有故障进行检测
RES06-03 支持亚健康检测
RES07 监控告警
RES07-01 定义关键指标与阈值并监控
RES07-02 日志统计监控
RES07-03 监控到异常后发送消息通知
RES07-04 监控数据存储和分析
RES07-05 端到端跟踪请求消息
故障快速恢复
RES08 依赖减少与降级
RES08-01 减少强依赖项
RES08-02 依赖松耦合
RES08-03 减少被依赖项故障的影响
RES09 故障重试
RES09-01 API及命令调用需要设计为可重试
RES09-02 客户端需要根据综合评估是否要重试
RES09-03 重试需要避免造成流量压力
RES10 故障隔离
RES10-01 应用控制平面与数据平面隔离
RES10-02 应用系统多位置部署
RES10-03 采用Grid架构
RES10-04 健康检查与自动隔离
RES11 可靠性测试
RES11-01 混沌测试
RES11-02 压力负载测试
RES11-03 长稳测试
RES11-04 灾难演练
RES11-05 红蓝攻防
RES12 应急恢复处理
RES12-01 组建应急恢复团队
RES12-02 制定应急预案
RES12-03 定期应急恢复演练
RES12-04 出现问题后尽快恢复业务
RES12-05 应急恢复回溯
过载控制
RES13 过载保护
RES13-01 采用自动弹性扩缩容
RES13-02 应用系统负载均衡,避免流量不均匀
RES13-03 过载检测与流量控制
RES13-04 支持主动扩容
RES13-05 资源自动扩容考虑了配额限制
RES13-06 压力负载测试
变更防差错
RES14 配置防差错
RES14-01 变更防呆检查
RES14-02 自动化变更
RES14-03 变更前数据备份
RES14-04 提供runbook进行标准化变更
RES15 升级不中断业务
RES15-01 自动化部署和升级
RES15-02 自动化检查
RES15-03 自动化回滚
RES15-04 灰度部署和升级
参考架构
概述
内部工具或公测类应用典型部署架构(99%)
内部知识管理类应用典型部署架构(99.9%)
信息管理类应用典型部署架构(99.95%)
电商类应用典型部署架构(99.99%)
单Region方案
双Region方案
金融类核心应用典型部署架构(99.999%)
跨云场景典型部署架构(99.99%)
跨云容灾方案
跨云双活方案
云服务可靠性介绍
概述
ECS弹性云服务器
可靠性功能
常见故障模式
BMS裸金属服务
可靠性功能
常见故障模式
CCE云容器引擎
可靠性功能
常见故障模式
ELB弹性负载均衡
可靠性功能
常见故障模式
AS弹性伸缩
可靠性功能
常见故障模式
DCS分布式缓存服务
可靠性功能
常见故障模式
DMS分布式消息服务
可靠性功能
常见故障模式
RDS云数据库
可靠性功能
常见故障模式
GaussDB(for MySQL)云数据库
可靠性功能
常见故障模式
OBS对象存储服务
可靠性功能
常见故障模式
安全性支柱
概述
安全性支柱简介
责任共担模型
基本概念
概念表
概念模型
设计原则
问题和检查项
云安全治理策略
SEC01 云安全治理策略
SEC01-01建立安全管理团队
SEC01-02 建立安全基线
SEC01-03 梳理资产清单
SEC01-04 分隔工作负载
SEC01-05 实施威胁建模分析
SEC01-06 识别并验证安全措施
基础设施安全
SEC02 身份认证
SEC02-01 对账号进行保护
SEC02-02 安全的登录机制
SEC02-03 安全管理及使用凭证
SEC02-04 一体化身份管理
SEC03 权限管理
SEC03-01 定义权限访问要求
SEC03-02 按需分配合适的权限
SEC03-03 定期审视权限
SEC03-04 安全共享资源
SEC04 网络安全
SEC04-01 对网络划分区域
SEC04-02 控制网络流量的访问
SEC02-03 网络访问权限最小化
SEC05 运行环境安全
SEC05-01 云服务安全配置
SEC05-02 实施漏洞管理
SEC05-03 减少资源的攻击面
SEC05-04 密钥安全管理
SEC05-05 证书安全管理
SEC05-06 使用托管云服务
应用安全
SEC06 应用安全性
SEC06-01 安全合规使用开源软件
SEC06-02 建立安全编码规范
SEC06-03 实行代码白盒检视
SEC06-04 应用安全配置
SEC06-05 执行渗透测试
数据安全与隐私保护
SEC07 通用数据安全
SEC07-01 识别工作负载内的数据
SEC07-02 数据保护控制
SEC07-03 对数据操作实施监控
SEC07-04 静态数据的加密
SEC07-05 传输数据的加密
SEC08 数据隐私保护
SEC08-01 明确隐私保护策略和原则
SEC08-02 主动通知数据主体
SEC08-03 数据主体的选择和同意
SEC08-04 数据收集合规性
SEC08-05 数据使用、留存和处置合规性
SEC08-06 向第三方披露个人数据合规性
SEC08-07数据主体有权访问其个人隐私数据
安全运营
SEC09 安全感知及分析
SEC09-01 实施标准化管理日志
SEC09-02 安全事件记录及分析
SEC09-03 实施安全审计
SEC09-04 安全态势感知
SEC10 安全事件响应
SEC10-01 建立安全响应团队
SEC10-02 制定事件响应计划
SEC10-03 自动化响应安全事件
SEC10-04 安全事件演练
SEC10-05建立复盘机制
参考架构
组织级参考架构
工作负载级参考架构
安全性云服务介绍
更多参考文档
性能效率支柱
性能效率支柱简介
基础概念
设计原则
问题和检查项
PERF01 流程与规范
全生命周期性能管理
PERF01-01 全生命周期性能管理
应用性能编程规范
PERF01-02 应用性能编程规范
PERF02 性能规划
性能规划
PERF02-01 定义性能目标
PERF02-02 容量规划
PERF03 性能建模
选择合适的计算资源
PERF03-01 选择合适类型的计算云服务
PERF03-02 选择合适规格的虚拟机和容器节点
PERF03-03 使用弹性伸缩
选择合适网络服务资源
PERF03-04 选择合适类型的网络云服务
选择合适的存储云服务
PERF03-05 选择合适类型的存储云服务
选择合适的应用中间件云服务资源
PERF03-06 选择合适的消息队列
PERF03-07 选择合适的Kafka
PERF03-08 选择合适的RocketMQ
PERF03-09 选择合适的RabbitMQ
选择合适的数据库资源
PERF03-10 选择合适的关系型数据库
PERF03-11 选择合适的非关系型数据库
PERF04 性能分析
性能测试
PERF04-01 定义验收标准
PERF04-02 选择合适的测试方式
PERF04-03 性能测试步骤
性能数据采集
PERF04-04 资源性能数据收集
PERF04-05 应用性能数据采集
建立性能可观测性体系
PERF04-06 建立性能可观测性体系
PERF05 性能优化
设计优化
PERF05-01 设计优化
算法优化
PERF05-02 通用算法优化
资源优化
PERF05-03 WEB场景资源优化
PERF05-04 大数据场景资源优化
PERF06 性能看护
性能看护
PERF06-01 分层看护
PERF06-02 性能劣化自动定界定位
PERF06-03 自动告警
云服务性能优化介绍
缓存性能优化
消息队列性能优化
Kafka性能优化
RabbitMQ性能优化
Serverless性能优化
数据库性能优化
人工智能性能优化
大数据性能优化
HIVE优化
Spark性能优化
Flink性能优化
成本优化支柱
成本优化支柱简介
基础概念
设计原则
问题和检查项
COST01 规划成本优化相应的组织机构和流程
COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配
COST01-02 规划IT治理体系,提高管理效率
COST01-03 明确团队责任,建立和维护成本意识文化
COST01-04 指定云资源管理策略和相应的权限管理机制
COST02 实施预算规划管理机制
COST02-01 建立云预算与预测流程
COST02-02 精细化预算管理和跟踪
COST03 对成本进行分配
COST03-01 制定成本分摊原则
COST03-02 可视化成本分摊结果
COST03-03 公共成本分配
COST04 持续进行成本治理
COST04-01 建立规范,持续提升成本分配比例
COST04-02 主动监控成本
COST05 优化指定策略和目标
COST05-01 分析业务趋势和优化收益
COST05-02 建立可以量化的优化目标
COST05-03 定期回顾和审核
COST06 使用不同计费模式优化成本
COST06-01 了解云上不同计费模式的特点
COST06-02 为工作负载选择合适的计费模式
COST06-03 跟踪并监控权益商品的使用情况
COST07 管理和优化资源
COST07-01 持续监控资源利用率指标
COST07-02 释放闲置资源
COST07-03 考虑不同的云资源技术选型
COST07-04 合理降配低负载资源或升配高负载资源
COST08 进行架构优化
COST08-01 按地域规划应用架构
COST08-02 云原生架构改造
COST08-03 存算分离
COST08-04 Serverless探索
成本优化云服务介绍
卓越运营支柱
卓越运营支柱简介
基础概念
设计原则
问题和检查项
OPS01 建立持续改进的团队文化和标准化的运维体系
OPS01-01 建立持续学习和改进的文化
OPS01-02 规划标准化的运维组织
OPS01-03 规划标准化的运维流程和运维工具
OPS02 通过CI/CD实现高效的频繁可逆的小规模变更
OPS02-01 进行需求管理和迭代开发
OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践
OPS03 完备的测试验证体系
OPS03-01 推行开发者测试
OPS03-02 使用多个环境进行集成测试,构建和生产环境相同的预生产环境
OPS03-03 进行性能压测
OPS03-04 对生产环境进行拨测
OPS03-05 进行混沌测试和演练
OPS04 自动化构建和部署流程
OPS04-01 有效落地持续集成
OPS04-02 采用持续部署模型
OPS04-03 基础设施即代码
OPS04-04 自动化工程运维任务
OPS05 运维准备和变更管理
OPS05-01 进行生产准备度评审(Product Readiness Review)
OPS05-02 进行变更风控
OPS05-03 定义变更流程
OPS06 可观测性体系
OPS06-01 建立可观测性体系
OPS06-02 定义可观测对象
OPS06-03 制定和实施可观测性指标
OPS06-04 规范化应用日志
OPS06-05 实施依赖项遥测
OPS06-06 实施分布式跟踪
OPS06-07 通过可观测性指标引入自动化措施
OPS07 进行故障分析和管理
OPS07-01 创建可操作的告警
OPS07-02 创建监控看板
OPS07-03 支持事件管理
OPS07-04 支持故障恢复流程
OPS08 度量运营状态和持续改进
OPS08-01 使用度量指标衡量运营目标
OPS08-02 进行事故复盘和改进
OPS08-03 知识管理
参考案例
通过AOM助力系统运维能力提升,降低运维成本与难度
基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析
LTS助力某公司高效完成日常业务运维与等保合规
卓越运营云服务介绍
软件开发生产线(CodeArts)
资源编排服务(RFS)
云运维中心(COC)
云监控中心(CES)
云日志服务(LTS)
应用运维管理(AOM2.0)
应用性能管理(APM)
云堡垒机(CBH)
应用管理与运维平台(ServiceStage)
多活高可用(MAS)
更多参考文档
文档下载
通用参考
产品术语
云服务等级协议(SLA)
白皮书资源
支持区域
系统权限