一、背景
在大型企业、金融机构建设私有云时,须考虑私有云各项服务的高可用和容灾/备份方案,防止因单机房故障引发的一系列故障导致业务不可用或整体停服,降低影响范围同时满足监管和等保等安全要求。
二、建设范围
私有云建设内容一般包含几个重点部分:
- 机房建设:通常情况下,容灾设计具备同城双机房,保证业务双活部署或者灾备部署;同时对于重要业务,需要规划异地灾备机房,用于远端冷数据备份。即具备同城双活/灾备和异地备份恢复能力。
- 硬件部署:网络/防火墙设备均采用双机方案,在可用区内部满足双活/主备部署要求;在可用区之间需要支持网络流量的故障切换能力,将用户访问无缝切换至另一可用区;服务器采用集群或双活方案,支持可用区内按照跨柜列、跨机柜的方式满足高可用。
- 数据库:作为核心应用的数据承载层,需要支持可用区之前的数据强同步、可用区内部的主从能力,切支持自动切换;如果采用服务器+SAN存储的部署模式,需要支持备机房的数据自动拉起。
- 云产品:云产品按照容灾属性进行跨可用区或者独立部署,常见容灾能力如下表:
服务 |
容灾特性 |
说明 |
云管控制台 |
Global级Region级 |
Global级的服务通常为计量、计费组件、认证服务等; Region级服务包含计算、存储、网络等管理组件,做到主备可用区同步部署,主用主可用区,故障自动拉起备可用区 |
计算产品 |
AZ级 |
计算节点只能放置于某个可用区内,故其承载的云主机/裸金属具备AZ属性,不支持跨AZ的容灾能力 |
SDN网关 |
Region级 AZ级 |
裸金属网关:AZ级服务 LB负载均衡:依赖vpc网关VIP能力,提供Region级服务 VPC网关:Region级,VPC具有跨AZ能力,子网只有AZ属性 专线网管:Region级服务,通过两个机房之间的专线互联,使用BFD检测自动切换网络路径 |
存储 |
Region级 AZ级 |
块存储云盘:AZ级 文件存储:AZ级 对象存储:Region级 |
容器集群 |
Region级 |
云上容器集群支持跨AZ部署,通过ETCD选主确定切换时间,一般为master 2+1或3+2的模式,node节点打散分布在2个AZ |
- 容灾方案设计
私有云整体容灾架构如下:
- 从网络架构上来看(1)idc通过专线连通,出口侧配置专线接入交换机和专线防火墙,采用主备方式;(2)互联网侧配置互联网接入设备和防火墙,可考虑多个运营商接入pop点。采用主备或者主主方案设置;(3)主备AZ同时接入IDC核心设备并配置大小路由,在主AZ故障后可实现秒级切换,流量引入备AZ;(4)AZ之间也通过专线互联,保证链路时延在1-3ms内,距离不大于几十公里。
- 从应用访问层面,外部用户接入通过全局DNS做选路,解析应用访问至云内;应用系统采用跨AZ双活架构,基于k8s能力进行容灾切换。
- 从数据层来看,数据库需采用可用区内一主多从、可用区之间进行强同步,保证数据一致性。
- 存储层提供同城集群部署方式,将数据打散分片至2个AZ,提供冗余访问;同时远端建设异地灾备机房,将冷数据和数据库备份数据定期异步复制。
- 管控服务在主AZ拉起,备AZ平时不启动,待主AZ故障发生,自动拉起备AZ服务进行切换,管控组件故障不影响云上已创建资源。