1. 什么是灾备
2015年,某第三方支付工具在PC网页和手机客户端出现无法登录、网络异常等现象,对此关方回复称原因是某地光纤被挖断。
同年,某订票官方网站及APP也陷入瘫痪,官方发消息称服务器遭受攻击。
以上这些故障时有可能发生,但不应该导致业务瘫痪,企业对于这些情况应该提前预防,做好灾备方案,避免业务瘫痪而导致的更严重的损失。
灾备顾名思义,是一种灾难备份、及时恢复的技术手段,可以保障线上业务不间断正常运行。而云灾备是借助云计算基础设施和云技术实现的云上业务灾备的一种形式和产品。
具体来说灾备包括云备份和云容灾,对应的云服务分别为备份即服务(BaaS)和容灾即服务(DRaas)。
云备份是将数据(数据卷、数据库、系统镜像、虚拟机镜像等)备份迁移存储到云端,方便在故障发生时及时恢复,尽可能实现数据不丢失;云容灾就是通过备份、迁移、高可用的方式,实现业务快速迁移接管,保证业务的不间断。
2. 云灾备的必要性与优势
灾备对于企业来说十分重要,业务宕机通常会引起用户的不满、企业声誉降低、经济损失严重等。而引起业务故障的因素也有许多:
- 自然灾害:火灾、地震、水电灾害等自然因素引起导致的业务故障、服务器宕机。
- 技术故障:存储设备损坏、网络故障、设备故障等。
- 人为错误:操作管理员误操作、软件BUG等。
- 外部侵入:网络攻击、病毒侵入等。
相比本地灾备,云灾备的优势主要包括:
- 降低成本:云上灾备服务降低了传统的灾备服务器等硬件采购成本、运维成本,按需购买,可以将资金人力投入到核心技术的研发工作中去。
- 高度灵活:按照业务的优先级和重要等级,按需灵活指定计划与部署,可以简单快速地将服务数据进行备份和容灾。
- 快速恢复:对于故障发生时,许多业务不可容忍长时间的故障恢复,而如果发生火灾、地震、断电等自然因素导致的灾害,难以短时间内进行故障恢复,而云灾备可以帮助企业快速、无感知地进行故障恢复。
- 安全:云灾备通常具有可靠的高可用、高安全的异地云数据中心的备份和基础设施。
- 业务丰富:云端灾备提供全业务场景灾备需求;同时提供自动化的灾备演练,帮助用户检查各个环节忽略的问题。
3. 云灾备关键技术与指标
3.1 关键技术
- 数据备份技术:数据备份是云灾备的核心技术之一,它可以将企业的数据备份到云端,以保证数据的安全性和可靠性。备份技术需要考虑数据的完整性、一致性和可恢复性等方面,同时还需要考虑备份的频率和备份数据的存储方式等问题。
- 数据恢复技术:数据恢复是云灾备的另一个核心技术,它可以在数据丢失或系统故障等情况下,快速恢复数据。恢复技术需要考虑数据的版本管理、数据的一致性和恢复时间等问题。
- 数据同步技术:数据同步是保证备份数据与源数据一致的重要技术,它可以实现数据的实时备份和同步。同步技术需要考虑数据的传输速度、传输安全性和数据冲突解决等问题。
- 容错技术:容错技术是保证云灾备系统高可用性的关键技术,它可以通过冗余备份、负载均衡和故障转移等方式,保证系统的稳定性和可靠性。
- 监控技术:监控技术是保证云灾备系统正常运行的重要技术,它可以通过监控系统的状态、备份状态、恢复状态等方面异常,及时发现和处理系统故障。
- 安全技术:安全技术是保证备份数据安全性的重要技术,它可以通过加密、身份验证、访问控制等方式,保护备份数据的机密性和完整性。
3.2 指标
- RPO(Recovery Point Objective, 恢复点目标):灾难发生后,容灾系统进行数据恢复,恢复得来的数据对应的时间点称为RPO,反应了数据丢失量的指标,体现了企业能容忍的最大数据丢失量的指标,RPO越小,企业丢失数据越少。
- RTO(Recovery Time Objective, 恢复时间目标):灾难发生后,从业务停顿开始到业务恢复正常所需要的时间称为RTO,代表企业能容忍的最长恢复时间。
4. 云灾备业务需求
4.1 全业务灾备
数据备份、数据归档、应用容灾多种能力,可为任务业务提供异地灾备服务。
4.2 本地业务到云
企业业务部署与裸金属/物理机来提供数据库等服务,希望借助云平台提供数据灾备能力。
4.3 故障演练
为了更好地建立灾备系统,检查各项灾备能力能否正常工作,需要人为注入故障,观察灾备系统能否正常工作。
4.4 业务监控
在业务运行期间,通过实时监控业务各项数据指标,来对业务系统进行详细了解与阈值设定。
5. 云灾备架构示例
以云上双活灾备架构为例,其中:
- 云DNS提供智能解析,将外部流量按照容灾进度进行流量分配。
- 资源编排实现业务发布、部署、配置等工作流,实现业务不间断运行。
- 数据同步以异步的方式将数据库主实例数据备份到备区数据库灾备实例,在故障切换时,尽可能保证数据不丢失。
VPC之间通过专有通道进行数据安全传输。