应用系统容灾计划常见问题解答-天翼云开发者社区

　容灾已经日益成为企业不得不考虑的重要问题之一。特别是随着信息技术对企业效益的帮助日益显著，企业对信息系统的安全的越来越看重。事实上，容灾涉及到企业的方方面面甚至和整个社会安全息息相关。而在IT系统这个层面，我们可以有针对性的制订相应的应急计划，便于将复杂问题化繁为简。为此，我们针对IT应急计划(容灾计划)所涉及的常见问题，分两部分进行了解答和说明。现罗列如下：

　　1. 什么是信息技术(IT)应急计划?

　　IT应急计划是指动态制定在IT系统中断后(重要的应用或通用支持系统)对系统、操作和数据进行恢复的策略。计划过程需要七个步骤：制定应急计划策略条款、执行业务影响分析(BIA)、确定防御性控制、制定恢复策略、制定IT应急计划、测试和演练计划并培训人员以及维护计划。

　　2. 运行连续性计划(COOP)、业务连续性计划(BCP)、业务恢复计划(BRP)灾难恢复计划(DRP)、支持连续性计划、计算机事件响应计划以及场所紧急计划(OEP)之间的区别是什么?

　　为了在中断事件中做好业务处理和IT系统的响应、连续、恢复和继续的准备，机构需要一系列的计划。每一个计划都具有特定的目的和范围;但是，由于缺乏对这些计划的标准定义，所以在有些情况下，机构实际制定的计划范围可能与下面的基本描述有区别。

　　按一般惯例，恢复到正常状态之前于备用站点维持机构(通常是总部)的重要工作长达30天的要求，COOP是为了达到这个要求而制定的。BCP涉及到在重大中断期间和之后维持业务处理所需的业务功能和IT系统。BRP记录了机构业务处理在备用站点的继续规程。与BCP不同，BRP不涉及在中断期间对处理的维持。DRP是指设计用于重大和通常是毁灭性灾难之后恢复目标系统、应用程序或计算机设施的以IT为主的计划。两个计划都提供了IT系统的恢复和继续规程。由于包括了对无需重新部署到备用站点的小型中断进行系统恢复的规程，所以这类计划比DRP的范围更广泛。计算机事件响应计划建立使安全人员可以确定、防止和恢复针对机构IT系统进行的计算机攻击的规程。OEP提供设施工作人员在威胁到人员的健康和安全以及威胁到环境或财产的紧急情况下所遵循的指导方针。计划的制定者之间必须进行协调以确保各自的策略和规程能够互为补充。必须将任何计划、系统和处理的变化情况通知给系统和处理相应的计划制定者。

　　3. 风险管理和IT应急计划之间的联系是什么?

　　风险管理包括对IT系统的风险进行确定、控制和消减的范围广泛的活动。风险管理应该通过部署防范自然、人为和环境对系统威胁的安全控制来防止或减少损害的可能性。风险管理还应该包括减少或限制实际中断系统事件产生影响的风险。由于这些措施基于对可能发生事件的预期进行制定并且在事件发生后被执行，所以它们构成了应急计划的基础。

　　4. 应该将IT应急计划融入系统开发生命周期(SDLC)的哪一个阶段?

　　虽然应急计划所涉及的活动发生在运行和维护阶段，但是应该在SDLC的所有阶段确定和集成应急措施。将应急计划融入SDLC降低了应急计划的整体成本，增强了应急能力，减少了实施应急计划时对系统运行的影响。

　　5. 如何确定保证IT系统可用性所需的应急方案?

　　BIA是应急计划过程的第二个步骤，是确定保证可用性所需恢复策略的中心任务。BIA使得应急计划协调人得以全面了解系统需求、处理过程及其相互关系以便确定应急需求及其优先顺序。应该根据所有相关系统的拥有者、最终用户以及内部和外部互联系统伙伴所提供的信息进行BIA。应该通过对这些联系点的数据收集确定完成IT系统的使命所需的关键资源。这样就可以确定在整个相关系统的过程中对资源可用性可能的影响并依据这些潜在的影响确定恢复这些资源的顺序。资源的需求和恢复优先顺序构成了制定适当应急方案的基础。

　6. 在书写IT应急计划前应该首先采取的步骤是什么?

　　在应急计划制定过程中首先采取的步骤是制定由高层管理者(通常是首席信息官)支持的应急计划策略条款。策略应该定义机构整体的应急目标并应该建立IT应急计划的机构框架和职责。策略条款还应该涉及到角色和职责。策略应该由涵盖培训需求、经常性备份、离站存储运输、计划演练、测试和维护内容的规程支持。

　　7. 应该选择何种备用站点做为IT应急策略?

　　应该通过BIA来确定备用站点的类型。备用站点的选择必须符合成本效益原则和机构IT系统的可用性需求。如果系统需要百分之百的可用性，就应该选择镜像站点。如果允许系统有多天的中断，就可以选择冷站点。

　　8. 备用站点或离站存储地点与主站点之间的距离应该是多少?

　　应该根据潜在的威胁范围确定备用站点或离站存储地点与主站点之间的距离，而不应使用一个固定值。应急计划协调人应该使用风险评估来确定安全实用的离站实施所应考虑的地理区域、访问性需求、安全需求、环境条件和费用因素。

　　9. 事件发生时应该通知谁?

　　应急计划中必须叙述通知规程。应急计划协调人应该确定IT系统发生中断时应该通知谁以及相关联络顺序。通常需要通知系统拥有者、用户互联的重要应用和通用支持系统的联系点。与IT系统互联的外部实体也应该被包括在通知规程中。设计一个呼叫树有助于按照适当的顺序和职责通知相关联络人。

　　10. 重建阶段是什么?

　　重建阶段也被称为继续阶段是在恢复阶段完成后进行的。在重建阶段中执行将原设施和IT系统恢复到正常运行状态的规程。如果因为原站点或系统严重损坏而无法使用，应该在重建阶段进行获得和准备新设施或IT系统的活动。当原站点或新站点和系统准备好时，恢复活动被终止，正常的操作被转回到机构的设施中。

　　11. IT应急计划应该多久被测试一次?

　　测试协助确保计划规程的可行性，确定恢复人员执行计划的能力并发现计划中的不足。至少应该每年进行一次测试，当IT系统、所支持的商业处理或IT应急计划有重大变动时也应该进行测试。应该首先对应急计划的每一个部分进行单独测试，然后做为整体测试其恢复规程的正确性和有效性。应该在应急计划策略条款中载明测试和演练的进程表。

　　12. IT应急计划应该多久被更新一次?

　　及时更新对于成功执行计划是很重要的。做为一般的原则，至少应该一年对计划的正确性和完整性进行一次检查，同时在计划、系统、系统所支持的业务处理或恢复规程所需的资源发生重大变化时也应该进行检查。通过测试(参见第9问)发现的不足应该通过计划的维护加以解决。计划中经常变动的部分如联络清单应该被更经常地检查。应急计划策略条款中应该载明维护的进度表。

　　13. IT应急计划和恢复方案应该与哪些活动进行协调?

　　除了将应急计划整合到系统开发生命周期(SDLC)中，还应该将应急计划与网络安全策略进行协调。系统安全控制可以协助防范恶意代码或可能破坏系统可用性的攻击，所以应该与事件响应规程紧密协调。IT应急计划还应该与所有其它同IT系统或互联的系统和业务处理的紧急情况准备计划紧密协调。

　IT应急计划(容灾计划)常用术语解释

　　容灾已经日益成为企业不得不考虑的重要问题之一。特别是随着信息技术对企业效益的帮助日益显著，企业对信息系统的安全的越来越看重。事实上，容灾涉及到企业的方方面面甚至和整个社会安全息息相关。而在IT系统这个层面，我们可以有针对性的制订相应的应急计划，便于将复杂问题化繁为简。为此，本文针对IT应急计划(容灾计划)所涉及的常用术语加以说明和注释。

　　备份(backup)：在需要的情况下协助进行恢复的文件和程序的复制件。

　　业务连续性计划(BCP)：描述在严重中断期间和之后如何维持机构业务功能的一系列预先确定的指令和规程的文档。

　　业务影响分析(BIA)：对信息技术(IT)系统的需求、过程和相互关系的分析，这些分析用于描绘重大中断事件中系统的应急需求和优先顺序的。

　　业务恢复/继续计划(BRP)：描述在重大中断发生后如何恢复业务功能的预先确定的一系列指令和规程的文档。

　　冷站点：具有计算机设施所需的电子和物理部件但是没有装备计算机设备的备份设施。这种站点在用户不得不将其主要计算地点移至备用站点的事件中做好接收更换设备的准备。

　　计算机：按照数据处理程序或指令系列接收数字化数据并处理信息的设备。

　　应急计划：被设计用于在紧急济情况、系统故障或灾难事件中在备用站点维持或恢复包括计算机运行在内的业务运行的策略和规程。

　　运行连续性计划(COOP)：描述灾难发生后到恢复正常运行前如何至少维持30天的机构重要功能的一系列预先制定的指令和规程的文档。

　　支持连续性计划：根据管理和预算办公室(OMB)A-130规章的要求制定的描述在重大中断事件中如何维持重要应用和通用支持系统的一系列预先制定的指令和规程的文档。

　　灾难恢复计划(DRP)：在重要硬件或软件故障或设施损毁的事件中处理关键应用的书面计划。

　　中断：造成通用系统或重要应用在无法接受的长时间内无法运行的非计划内事件(如短期或长期的电源中断、长期无法使用网络、设备或设施的损坏或损毁)。

　通用支持系统：在同一直接管理控制下分享共同功能的互联的信息资源。通常包括硬件、软件、信息、数据、应用程序、通信、设施以及人员，它通常为各种用户和/或应用提供支持。支持任务相关的不同功能的单个应用程序。用户可能来自同一个或不同的机构。

　　热站点：装备有硬件和系统软件用于灾难事件的完全可以运行的离站数据处理设施

　　事件响应计划：用于探测、响应针对机构IT系统的有害计算机攻击并限制其后果的一系列预先制定的指令和规程的文档。

　　重要应用：由于因应用的失败、滥用、非法使用或更改所造成危害的风险和程度很大所以要对其安全特别关注的应用。对重要应用的破坏会破坏许多应用程序以及硬件、软件和电信部件。重要应用可以是一个重要的软件也可以是硬件和软件的组合，它的唯一目的是支持特定的任务相关功能。

　　移动站点：装备有为重大中断提供完整的恢复能力所需的、用户特定的IT设备和电信设备的、设备齐全可以移动的载体。

　　互惠协议：让两个机构互为备份的协议。

　　风险管理：使用基于风险的方法通过分析威胁和缺陷并选择适当的、性能价格比好的控制手段来达到和维护可接受的风险的、对任务/业务风险进行评估的持续过程

　　系统：代表重要应用或通用支持系统的简短的通用术语。

　　系统开发生命周期：包含系统发起、开发与获取、部署、运行与维护以及最终因其它系统的发起而废止的有关系统活动的范围。

　　温站点：在重大中断事件中支持重新配置IT运行、配备了部分IT和电信设备、环境得到调节的工作场所。