一.故障描述
客户设备环境为一台操作系统为Windows Server 2008的服务器,部署MongoDB数据库。由于业务需要,客户在未关闭MongoDB数据库服务的情况下,对数据库文件进行了拷贝。将数据库文件拷贝到其他分区后,客户对原数据库分区进行了格式化操作,后将数据库文件拷回原分区,重新启动MongoDB服务,这时,客户发现服务无法启动。报错如下: 图一:
二.故障检测
一般来说,在服务没有关闭的情况下,直接对MongoDB数据库文件进行拷贝,由于服务还在运行,会导致mongod.lock文件以及WiredTiger.lock文件拷贝出现错误,这个时候在拷贝出的文件中删除这两个文件,再次启动服务,由MongoDB自行重新生成即可。 但是通过对客户拷贝出的文件进行现场检测发现,客户拷贝出的数据库文件中,_mdb_catalog.wt文件丢失。 mdb_catalog.wt文件里存储了MongoDB中所有集合的元数据,数据库启动时需要从这个文件中读取相关的信息。由于此文件丢失,导致数据库无法获取数据库中集合对应的名字,集合的创建选项,集合的索引信息等元数据,数据库无法启动。
三.数据恢复
首先我们尝试从文件系统的角度对_mdb_catalog.wt文件进行恢复。 使用专业数据恢复软件对数据库分区进行扫描,查看扫描结果,并没有_mdb_catalog.wt文件的信息。根据MongoDB数据库中,数据文件的特征值,对数据库分区进行扫描,也没有发现_mdb_catalog.wt相关的数据区域。由此判断,_mdb_catalog.wt文件已经被彻底覆盖破坏,无法恢复。 此时只能从数据库的层面想办法提取其中的数据了。 客户所部署的MongoDB数据库是基于WT存储引擎的数据库系统,这样的话我们就可以使用WT实用工具包提取数据库中的数据。 首先下载WT实用工具包,然后再windows环境下编译出可执行的wt工具。 图二: 编译完成后,使用wt工具,先对数据库的集合文件中的数据进行清洗,完成后,直接读取文件中的数据,写入到一个dump文件中。 这个时候我们就已经把数据库的各个集合文件中的全部可用数据提取出来了,下一步我们要做的就是还原数据库环境。 重新创建一个MongoDB数据库,根据我们提取出的集合文件,创建对应数量的空集合,然后使用wt工具,将提取出来的dump文件一一写入到新创建的空集合中。这个时候就可以通过查询集合中的数据,确认这些集合与元数据库中集合的对应关系,修改集合名称,重建索引信息,到这,数据恢复基本就已经完成了。 通过查询集合中的记录,确定记录类型,从而确定fs.files和fs.chunks集合的位置后,修改这两个集合名称为xxx.files和xxx.chunks后,重建集合索引,集合恢复完成,可以正常查看其中数据: 图三: 图四:
四.数据验证
协助客户对全部集合进行索引重建之后,客户对数据库整体进行查询验证,数据无误,此次数据恢复圆满成功。