searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

浅谈数据容灾技术

2023-08-04 04:57:28
36
0

1. 基本概念

数据容灾的目标是建立一个可靠的备份和恢复机制,使组织能够在发生灾难性事件时尽快恢复数据和系统功能。以下是数据容灾的一些关键方面:

数据备份:数据容灾的核心是定期备份重要数据,确保数据的安全存储在备份系统中。备份可以是全量备份或增量备份,具体选择取决于组织的需求和数据量。

冗余存储:为了增强数据的可靠性,数据容灾采用冗余存储技术,将备份数据复制到多个地点或设备中。这样即使一个存储设备发生故障,备份数据依然可用。

异地备份:数据容灾通常会将备份数据存储在物理上分离的地理位置,以防止地区性灾难对数据的影响。将数据备份存储在异地数据中心或云服务提供商的服务器上是常见的做法。

灾难恢复计划:数据容灾需要制定详细的灾难恢复计划(DRP)。这份计划包含应对各种灾难场景的操作步骤和责任分工,确保在发生灾难时,恢复工作可以迅速展开并由经过培训的人员执行。

定期测试与演练:仅仅有备份是不够的,数据容灾还需要定期测试和演练。通过模拟真实灾难事件,组织可以评估备份的完整性和可用性,发现潜在问题并及时进行修复。

监控与自动化:数据容灾解决方案通常会配备监控系统,用于实时监测备份和恢复的状态。自动化技术也可以帮助在发生灾难时迅速启动恢复过程,缩短业务中断时间。

加密与安全性:数据容灾方案应该重视数据的安全性和隐私保护。使用加密技术确保备份数据在传输和存储过程中不受未经授权访问的影响。

2.数据容灾分类

冷备份:冷备份是指将数据备份存储在离主要系统较远的地方,通常是另一个物理位置。在灾难发生时,需要手动启动备份系统并恢复数据,因此恢复时间较长。冷备份适用于对恢复时间要求不是特别高的情况。

热备份:热备份是指将数据备份存储在与主要系统非常接近的地方,甚至是在同一个数据中心内。备份系统会实时复制主要系统的数据,一旦主要系统故障,备份系统可以立即接管服务,实现快速恢复。热备份适用于对恢复时间要求非常高的关键业务场景。

暖备份:暖备份介于冷备份和热备份之间,备份系统和主要系统之间存在一定程度的延迟。在灾难发生时,需要进行手动干预来切换到备份系统,恢复时间相对较长,但比冷备份要快。

异地备份:异地备份是指将数据备份存储在地理位置上远离主要系统的地方。这种方式可以防止地域性灾难对数据的影响。异地备份通常结合冷备份、暖备份或热备份技术使用。

云备份:云备份是指将数据备份存储在云服务提供商的服务器上。这种方式不仅提供了异地备份的好处,还可以通过云服务商的自动化和弹性资源实现快速恢复。

增量备份和全量备份:增量备份只备份自上次备份以来发生变化的数据,节省存储空间和备份时间。全量备份则备份所有数据。在容灾场景中,通常使用增量备份作为补充,以确保备份数据的完整性。

3.缺陷与优化

传统的数据容灾和备份技术,是对本地文件系统上的关键数据,进行定期的完全或增量备份,并使用去重技术来减少对存储空间的耗费来实现的。传统的数据容灾和备份技术存在如下几个主要缺陷,而不能满足更高要求的容灾和备份应用需求:

(1)传统的数据容灾和灾备技术,为了保证数据一致性,需要对生产设备相关状态进行暂时冻结或进行快照,然后进行定期的完全或增量备份,无法在用户使用过程中实时捕获增量修改,并以接近实时(取决于网络速度)地同步保证数据同步,备份时间粒度、系统开销需求大;

(2)传统的备份技术由于未能保存序列化的操作日志,在恢复数据粒度上取决于定期备份的精度;

(3)传统的备份技术需要考虑使用额外的数据去重技术来减少对存储空间的需求,增加了系统资源和处理开销。

为解决以上传统技术的缺陷,满足更高要求的容灾和备份应用需求,需做出如下优化:

(1)通过旁路式监听源端的数据变化,以字节级增量数据捕捉方式,将生产端变化的数据复制到灾备中心并将变化的数据实时地传输到任意距离外的灾备站点

(2)通过特有的数据序列化传输技术, 严格保证生产系统和灾备中心数据的一致性和完整性。

4.具体实战

以Oracle数据库为例,其在磁盘上的关键文件有数据文件、联机重做日志文件、控制文件、归档日志文件、参数文件、密码文件等。如下图所示,某个应用产生了一系列的SQL操作,最终Oracle会将这些SQL操作行成一系列的写磁盘I/0,这些写磁盘I/0的编号为从1到179:

但在写的过程中数据库服务器突然掉电,导致只有前173个磁盘I/0写完成了,最后的6个写磁盘I/0丢失,当数据库服务器再次通电重启后,Oracle数据库将自动进行前滚回滚,从而将数据库恢复到数据的最近一致性和完整性状态,而对该类异常保持数据库的可用性,是每一款商业数据库软件都必须要做到的基本要求。所以对上述的由SQL引起的179个磁盘I/0写,无论系统断在哪个I/0写上,只要已经写完成的磁盘I/0写是严格按照顺序写的(如果写入的顺序是乱的,且刚好发生异常,则数据库将被破坏),数据库重启时总能自动修复,并正常对外提供服务。

基于该原理,数据库灾备时,只要保证传输的磁盘I/0序列和源端是同样的顺序,即可保证备端的数据库备份绝对是可用的:

只是因为网络传输的原因,可能传输过来的磁盘1/0写只有前167个,但只要这167个顺序和和源端是一致的,数据库恢复时总能保证数据库可用,只是数据丢失比源端要多一些,但也仅此而已。

0条评论
0 / 1000
z****n
2文章数
0粉丝数
z****n
2 文章 | 0 粉丝
z****n
2文章数
0粉丝数
z****n
2 文章 | 0 粉丝
原创

浅谈数据容灾技术

2023-08-04 04:57:28
36
0

1. 基本概念

数据容灾的目标是建立一个可靠的备份和恢复机制,使组织能够在发生灾难性事件时尽快恢复数据和系统功能。以下是数据容灾的一些关键方面:

数据备份:数据容灾的核心是定期备份重要数据,确保数据的安全存储在备份系统中。备份可以是全量备份或增量备份,具体选择取决于组织的需求和数据量。

冗余存储:为了增强数据的可靠性,数据容灾采用冗余存储技术,将备份数据复制到多个地点或设备中。这样即使一个存储设备发生故障,备份数据依然可用。

异地备份:数据容灾通常会将备份数据存储在物理上分离的地理位置,以防止地区性灾难对数据的影响。将数据备份存储在异地数据中心或云服务提供商的服务器上是常见的做法。

灾难恢复计划:数据容灾需要制定详细的灾难恢复计划(DRP)。这份计划包含应对各种灾难场景的操作步骤和责任分工,确保在发生灾难时,恢复工作可以迅速展开并由经过培训的人员执行。

定期测试与演练:仅仅有备份是不够的,数据容灾还需要定期测试和演练。通过模拟真实灾难事件,组织可以评估备份的完整性和可用性,发现潜在问题并及时进行修复。

监控与自动化:数据容灾解决方案通常会配备监控系统,用于实时监测备份和恢复的状态。自动化技术也可以帮助在发生灾难时迅速启动恢复过程,缩短业务中断时间。

加密与安全性:数据容灾方案应该重视数据的安全性和隐私保护。使用加密技术确保备份数据在传输和存储过程中不受未经授权访问的影响。

2.数据容灾分类

冷备份:冷备份是指将数据备份存储在离主要系统较远的地方,通常是另一个物理位置。在灾难发生时,需要手动启动备份系统并恢复数据,因此恢复时间较长。冷备份适用于对恢复时间要求不是特别高的情况。

热备份:热备份是指将数据备份存储在与主要系统非常接近的地方,甚至是在同一个数据中心内。备份系统会实时复制主要系统的数据,一旦主要系统故障,备份系统可以立即接管服务,实现快速恢复。热备份适用于对恢复时间要求非常高的关键业务场景。

暖备份:暖备份介于冷备份和热备份之间,备份系统和主要系统之间存在一定程度的延迟。在灾难发生时,需要进行手动干预来切换到备份系统,恢复时间相对较长,但比冷备份要快。

异地备份:异地备份是指将数据备份存储在地理位置上远离主要系统的地方。这种方式可以防止地域性灾难对数据的影响。异地备份通常结合冷备份、暖备份或热备份技术使用。

云备份:云备份是指将数据备份存储在云服务提供商的服务器上。这种方式不仅提供了异地备份的好处,还可以通过云服务商的自动化和弹性资源实现快速恢复。

增量备份和全量备份:增量备份只备份自上次备份以来发生变化的数据,节省存储空间和备份时间。全量备份则备份所有数据。在容灾场景中,通常使用增量备份作为补充,以确保备份数据的完整性。

3.缺陷与优化

传统的数据容灾和备份技术,是对本地文件系统上的关键数据,进行定期的完全或增量备份,并使用去重技术来减少对存储空间的耗费来实现的。传统的数据容灾和备份技术存在如下几个主要缺陷,而不能满足更高要求的容灾和备份应用需求:

(1)传统的数据容灾和灾备技术,为了保证数据一致性,需要对生产设备相关状态进行暂时冻结或进行快照,然后进行定期的完全或增量备份,无法在用户使用过程中实时捕获增量修改,并以接近实时(取决于网络速度)地同步保证数据同步,备份时间粒度、系统开销需求大;

(2)传统的备份技术由于未能保存序列化的操作日志,在恢复数据粒度上取决于定期备份的精度;

(3)传统的备份技术需要考虑使用额外的数据去重技术来减少对存储空间的需求,增加了系统资源和处理开销。

为解决以上传统技术的缺陷,满足更高要求的容灾和备份应用需求,需做出如下优化:

(1)通过旁路式监听源端的数据变化,以字节级增量数据捕捉方式,将生产端变化的数据复制到灾备中心并将变化的数据实时地传输到任意距离外的灾备站点

(2)通过特有的数据序列化传输技术, 严格保证生产系统和灾备中心数据的一致性和完整性。

4.具体实战

以Oracle数据库为例,其在磁盘上的关键文件有数据文件、联机重做日志文件、控制文件、归档日志文件、参数文件、密码文件等。如下图所示,某个应用产生了一系列的SQL操作,最终Oracle会将这些SQL操作行成一系列的写磁盘I/0,这些写磁盘I/0的编号为从1到179:

但在写的过程中数据库服务器突然掉电,导致只有前173个磁盘I/0写完成了,最后的6个写磁盘I/0丢失,当数据库服务器再次通电重启后,Oracle数据库将自动进行前滚回滚,从而将数据库恢复到数据的最近一致性和完整性状态,而对该类异常保持数据库的可用性,是每一款商业数据库软件都必须要做到的基本要求。所以对上述的由SQL引起的179个磁盘I/0写,无论系统断在哪个I/0写上,只要已经写完成的磁盘I/0写是严格按照顺序写的(如果写入的顺序是乱的,且刚好发生异常,则数据库将被破坏),数据库重启时总能自动修复,并正常对外提供服务。

基于该原理,数据库灾备时,只要保证传输的磁盘I/0序列和源端是同样的顺序,即可保证备端的数据库备份绝对是可用的:

只是因为网络传输的原因,可能传输过来的磁盘1/0写只有前167个,但只要这167个顺序和和源端是一致的,数据库恢复时总能保证数据库可用,只是数据丢失比源端要多一些,但也仅此而已。

文章来自个人专栏
数据容灾
2 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0