灾备(DR),在信息化的IT系统中,指的是容灾与备份结合,利用IT技术对企业数据、业务高可用进行保护,确保系统遭受灾难时数据安全、业务快速恢复。其作为“网络安全的最后一公里”,是网络安全保障体系的重要组成部分,也是网络与系统基础设施持续有效运行的基本保障。
对于各行各业而言,数据是最核心、最重要的财富。但是火灾、地震、黑客攻击、人为失误等时刻威胁数据和信息系统的稳定运行。
一、容灾的分类
从其对系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾,数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。
应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行,数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。
二、容灾和备份有什么联系
容灾备份实际上是两个概念,容灾是为了在遭遇灾害时能保证信息系统能正常运行,帮助企业实现业务连续性的目标,备份是为了应对灾难来临时造成的数据丢失问题。在容灾备份一体化产品出现之前,容灾系统与备份系统是独立的。容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等’软’性灾害以及硬件故障、自然灾害等“硬”性灾害。
三、容灾和备份的区别
一般意义上,备份指的是数据备份或系统备份,容灾指的是不在同一机房的数据备份或应用系统备份。备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:
1)容灾主要针对火灾、地震等重大自然灾害,因此备份中心与主中心间必须保证一定的安全距离;数据备份在同一数据中心进行。
2)容灾系统不仅保护数据,更重要的目的在于保证业务的连续性;而数据备份系统只保护数据的安全性。
3)容灾保证数据的完整性;备份则只能恢复出备份时间点以前的数据。
4)容灾是在线过程;备份是离线过程。
5)容灾系统中,两地的数据是实时一致的;备份的数据则具有一定的时效性。
6)故障情况下,容灾系统的切换时间是几秒钟至几分钟;而备份系统的恢复时间可能几小时到几十小时。
四、容灾的分类
1. 数据级
数据级容灾是最基础的手段,指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,发生灾难时应用是会中断的。可以简单的把这种容灾方式理解成一个远程的数据备份中心,就是建立一个数据的备份系统或者一个容灾系统,比如数据库、文件等等。
优点:费用比较低,构建实施相对简单
缺点:数据级容灾的恢复时间比较长
2. 应用级
应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生。应用级容灾就是建立一个应用的备份系统,比如一套OA系统正在运行,在另一个地方建立一套同样的OA系统。
优点:提供的服务是完整、可靠、安全的,确保业务的连续性
缺点:费用较高,需要更多软件的实现
3. 业务级
业务级容灾是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。
优点:保障业务的连续性
缺点:费用很高,还需要场所费用的投入,实施难度大。
五、灾备关键技术指标
进行灾备解决方案设计时,需关注灾备的两个关键技术指标:
1、RTO:Recovery Time Objective,恢复时间目标。
指灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。RTO是反映业务恢复及时性的指标,体现了企业能容忍的IT系统最长恢复时间。
2、RPO:Recovery Point Objective,恢复点目标。
指灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。RPO是反映数据丢失量的指标,体现了企业能容忍的最大数据 丢失量的指标。RPO值越小,代表企业数据丢失越少,企业损失越小。
图1 RPO和RTO基本概念介绍图
图2 业务系统响应流程图
RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。
系统越重要,要求 RPO 越小。如果做数据备份,RPO 越小意味着数据的备份频率更高,比如一般的系统可能一天备份一次,非常重要的系统可能一小时备份一次;如果做数据同步,RPO 越小意味着要求数据同步链路的可靠性更高或延迟更低,对整个生产环境和网络的压力越大,需要的成本也更高。
六、传统的灾备方式已经不适应云时代
传统灾备一般适用于传统IT架构,但是随着IT架构从传统IOE逐渐演进到多云混合架构,业务种类和数量呈现爆炸性增长,传统灾备的对等模式就很难适应这种多云混合场景。
成本高。传统灾备往往需要同等资源、同等架构(比如说相同的硬件设备、性能、网络环境)等。
机动性差。传统灾备很难做到随业务变化而进行灾备资源的弹性伸缩(增加资源或释放资源),而云最大的优势就是弹性,按需付费。
恢复慢。特别是在混合云环境下,无论是业务接管还是演练,很难做到简单易行快速恢复或演练。