一、企业数据副本的挑战
企业IT系统时刻面临各种各样的数据安全威胁,通过容灾备份技术可对IT系统的数据和业务服务做一定的保障。但如何快速激活生产数据副本,是核心业务应用创新的关键。通常可通过复杂的脚本、存储快照来生成大量的数据副本,被不同的使用者部署在不同的场景,但也带来了许多的问题。例如,大量快照和业务数据在同一个存储中,随着时间的增长,历史的数据副本繁多且未经有效管理,最终会对企业的在线业务造成很大的影响和冲击,带来应用缓慢、系统可靠性下降、数据运营效率低、IT成本增高等问题,为企业IT管理带来很大的隐患。
随着企业信息化建设的深入,业务数据也随之增长,非结构数据已达到了海量级别,结构化数据也进入了TB级别。面对如此庞大的数据量,采用传统周期性“完全备份+增量备份”的备份策略,已无法满足企业对备份的及时性要求。
此外,企业的数字化转型需要以数据为驱动,全新数字化服务模式正在快速发展,新产业、新业态、新模式在不断出现。数据正在快速成为企业的重要资产和持续创新的驱动力。
企业对数据的要求也从支持核心业务系统、保证生产系统的稳定和连续,扩展到满足敏捷测试开发、审计、数据分析等场景。这些场景都意味着生产数据的复制,会让数据量快速大量的增长。
由上可见,企业IT如何既能对这些复制的数据进行有效管理,同时又能确保所有数据的安全性、可用性、隐私性,是一个必须要面对的挑战。
1、快速可靠地恢复生产数据。
企业核心业务系统的数据备份可有效支持业务的全天候运营。但是在传统的备份机制下,备份数据格式与原格式往往并不相同,往往需要通过数据恢复之后才能让业务系统使用。既不能确定备份数据是否可恢复,也难以在指定的时间内完成大量的数据恢复,生产数据的连续可用难以保证。再者,随着数据量的快速增加,无法在指定备份窗口完成数据备份,还增加了生产数据的丢失风险。
2、高效快速地交付数据。
传统数据准备流程下,从数据审批到获取,手续复杂,时间往往以天甚至月为单位。并且很多开发测试的工作环境还需要不断更新或重新生成数据,这都导致数据准备时间长。再者,传统方式下,数据的导入和导出通常是手工操作,大大增加数据管理员的工作强度。
3、做好副本数据管理并降低TCO。
数量庞大的副本数据,意味着高昂的存储资源和维护开支。企业的副本数据就可消耗一半的存储空间,而且往往还会带来额外的存储软件和产品的采购开支。
二、数据副本管理介绍
概念
数据副本管理,即CDM(Copy Data Management),Gartner给出的定义是:从生产环境通过快照技术获取有数据一致性保证的数据副本,这个“黄金副本”数据格式是原始的磁盘格式,同时可再虚拟化成多个副本直接挂载给服务器,分别用于备份恢复、容灾、开发、测试等。
传统备份数据需要首先进行恢复,否则应用系统无法调用备份数据。而CDM数据副本是原生的磁盘格式,不用恢复就可以直接调用,可快速完成系统恢复。按照Gartner的定义,数据副本管理是一种端到端的创新技术,把单纯面向恢复的应用场景变成面向数据使用的应用场景,打破数据备份和数据使用之间的壁垒;通过副本数据在企业各个业务环节的即时可用,为更多业务场景提供数据支撑,通过盘活暗数据以实现为业务赋能。
数据副本管理可带来高效率,首次全备、定期增量、永久全备、即刻恢复。备份策略在执行一次完全备份,后续每次均进行增量备份,系统将会基于第一份全量备份数据,和随后的增量备份集进行合并,生成新的全量备份数据。然后,再定时把新生成的增量数据集和全量备份集进行合并,再生成新的全量备份数据,以此循环处理;通过执行一次全量备份,后续都是增量备份,然后由系统在后台合成,避免了周期性完全备份对客户端主机资源、I/O资源和网络资源等生产环境的占用。选择时间点进行数据恢复时,直接使用合成后的全量备份数据进行恢复,支持数据还原和挂载恢复等多种方式,减少了恢复时间,提高恢复的效率,可有效节约数据的存储空间。
价值
常见的类CDM产品有多种,比如,或基于存储技术,或基于备份软件,但都难满足多应用场景的数据需求。标准的数据副本管理技术可为企业提供一种敏捷高效、经济可靠的最佳实践,具有较高的技术价值。
1、数据的高效使用与管理。
数据虚拟化技术,能够实现数据直接挂载,保证数据高效使用;同时分钟级的数据副本生成,提高了数据分发效率,解决查询、测试、分析等过程对数据的需求,且不影响生产系统。
2、减少存储资源开销。
CDM交付的数据是由“黄金副本”(Golden Image)所创建,生产系统有数据变化时,只需要修改数据内部的指向关系即可快速合成一份全量数据,确保每一份交付的数据只消耗极小的存储资源,并且每一份交付的数据都可读可写。
3、数据的一致性。
虚拟化的副本数据采用的是应用系统的标准接口,可通过自动化的策略、定时、定期地完成数据有效性验证,保证了数据的一致性。
4、全生命周期数据管理。
从数据环境准备、持续更新、处理、维护到销毁,提供全生命周期的数据管理,显著提高数据管理效率。
组成
数据副本管理平台通常涉及生产数据获取、备份数据管理、测试数据管理等方面。
1、生产数据获取
生产数据在备份时不得不面对恢复时间太长导致生产数据不可用、无法在备份窗口完成备份而导致数据丢失、备份数据一致性等问题。
基于原始格式的数据复制技术,通过用户设定的策略自动将通过数据一致性检测的副本数据,安全存储到CDM的存储池中,确保数据的一致性。全量数据复制之后,通过在生产系统的块层CDP技术,将生产数据的实时获取并传输至服务端,降低传统备份可能导致的数据丢失风险。一旦业务数据发生故障,通过生产数据副本能够实现数据的任意时间点恢复,为生产数据提供分钟级恢复的应急数据保障。
CDM 通过“一次全量、永久增量”的方式,通过一份副本,即可虚拟出多份数据副本,可为用户节省 约70%的存储资源,降低存储资源投入。在分钟级时间内就可以完成数据或系统的恢复,降低关键业务演练的资源投入,快速的数据恢复。
2、备份数据管理
传统备份流程复杂、缺少校验,导致备份数据面临不可恢复的挑战。通过备份数据管理,提高了备份数据安全管理的能力和水平。
备份数据管理通过集中化、统一化的方式,贯穿数据获取、存储和使用的各个环节,实现闭环式自动化管理,不仅简化了备份管理流程,实现了策略驱动的恢复集中管理,确保了企业级数据的恢复性,而且实现了备份数据有效性验证的自动化,提高用户现有备份系统或新上线备份系统恢复有效性验证的效率,规避人为原因导致的数据备份泄漏风险。
3、测试数据管理
基于虚拟数据副本技术,一份数据副本即可在分钟级拉起多份数据库,不仅降低了物理数据副本导致的副本泛滥,同时显著缩短数据交付周期;数据副本快照的即时挂载、分钟级完成仿真生产环境的部署,加快了应用开发;为了满足版本管理需求,测试数据管理提供不限量快照版本保留,让用户经济高效地实现测试开发版本的管理。
CDM 可将生产服务器上的操作系统、文件系统、数据库数据实时或定时备份后,用户需要使用数据时从备份数据可快速生成多个数据副本,该数据副本在不影响生产中心运作的情况下可用于容灾演练、开发测试等目的,并且几乎不占用存储空间;数据副本在使用完毕后可删除,不影响备份数据完整性,可提供独立、快捷、经济的数据副本管理服务。
三、总结
基于CDM平台,可实现从数据获取、数据存储、数据构建、数据使用、数据销毁的数据闭环式全生命周期管理。满足敏捷测试、开发、审计、质控,以及培训、事件分析的需求,加速企业构建系统化和流程化的管理平台,实现数据流线化高效管理。消除副本泛滥,以规则驱动实现副本数据的精细化服务管理,以及数据全生命周期的安全合规;分钟级可恢复,更好地实现生产数据的应急保障机制,保证生产数据的高可用。
数据副本管理,可以让数据更有活力。通过一个统一的流程化、自动化、智能化的数据管理平台,让副本管理和业务服务分离,无需快照,无需专业存储,不影响业务稳定,适用于多种场景。数据快速复制、数据即时恢复、研发测试、数据分析、数据共享。实现完整、及时的数据保护,达到分钟级的数据恢复时间,节省大量的存储空间。数据复用,不影响生产业务环境。
任何人、任何时候,使用数据副本都可以通过数据副本管理轻松共享,只要制定好管理策略,就能实现自动化管理。随着数字经济和数据隐私及安全的法制化,CDM可为企业级用户提供一种应对数据使用管理的挑战的解决办法,辅助企业级用户在数据副本管理时实现自主可控、开放灵活、自动化、安全性、平台化。