操作场景
在用户意外修改、删除或需要找回数据时,系统管理员对HBase进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对HBase业务数据进行恢复数据操作。
系统管理员可以通过FusionInsight Manager创建恢复HBase任务并恢复数据。只支持创建任务手动恢复数据。
须知
- 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。
- 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。
对系统的影响
- 恢复过程的数据还原阶段,系统会把待恢复的HBase表禁用,此时无法访问该表。还原阶段可能需要几分钟时间,此时HBase的上层应用无法正常工作。
- 恢复过程中会停止用户认证,用户无法开始新的连接。
- 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。
- 数据恢复后,需要重新启动HBase的上层应用。
前提条件
- 如果需要从远端HDFS恢复数据,需要准备备集群。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。
- 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。
- 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。
- 检查HBase备份文件保存路径。
- 停止HBase的上层应用。
- 登录FusionInsight Manager,请参见登录管理系统。
操作步骤
1.在FusionInsight Manager,选择“运维 > 备份恢复 > 备份管理”。
2.在任务列表指定任务的“操作”列,选择“更多 > 查询历史”,打开备份任务执行历史记录。
在弹出的窗口中,在指定一次执行成功记录的“备份路径”列,单击“查看”,打开此次任务执行的备份路径信息,查找以下信息:
- “备份对象”表示备份的数据源。
- “备份路径”表示备份文件保存的完整路径。
选择正确的项目,在“备份路径”手工选中备份文件的完整路径并复制。
3.在FusionInsight Manager,选择“运维 > 备份恢复 > 恢复管理”。
4.单击“创建”。
5.在“任务名称”填写恢复任务的名称。
6.在“恢复对象”选择待操作的集群。
7.在“恢复配置”,勾选“业务数据”下的“HBase”。
8.在“HBase”的“路径类型”,选择一个备份目录的类型。
备份目录支持以下类型:
- “RemoteHDFS”:表示将备份文件保存在备集群的HDFS目录。选择此参数值,还需要配置以下参数:
“源端NameService名称”:填写备份数据集群的NameService名称。可以输入集群内置的远端集群的NameService名称:haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4;也可输入其他已配置的远端集群NameService名称。
“IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
“源端NameNode IP地址”:填写备集群NameNode业务平面IP地址,支持主节点或备节点。
“源端路径”:表示备份文件在HDFS中保存的完整路径。例如“ 备份路径/备份任务名_数据源_任务创建时间 ”。
“队列名称”:填写备份任务执行时使用的YARN队列的名称。
“恢复点列表”:单击“刷新”,然后选择一个备集群上已备份的HDFS目录。
“最大map数”:填写执行MapReduce任务的最大map数,默认值为“20”。
“单个map的最大带宽(MB/s)”:填写单个map最大带宽,默认值为“100”。
- “NFS”:表示将备份文件通过NFS协议保存在NAS中。选择此参数值,还需要配置以下参数:
“IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
“服务器IP地址”:填写NAS服务器IP地址。
“源端路径”:填写备份文件在NAS服务器中保存的完整路径。例如,“ 备份路径/备份任务名_数据源_任务创建时间 ”。
“队列名称”:填写备份任务执行时使用的Yarn队列的名称。
“恢复点列表”:单击“刷新”,然后选择一个备集群上已备份的HDFS目录。
“最大map数”:填写执行MapReduce任务的最大map数,默认值为“20”。
“单个map的最大带宽(MB/s)”:填写单个map最大带宽,默认值为“100”。
- “CIFS”:表示将备份文件通过CIFS协议保存在NAS中。选择此参数值,还需要配置以下参数:
“IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
“服务器IP地址”:填写NAS服务器IP地址。
“端口号”:填写CIFS协议连接NAS服务器使用的端口号,默认值为“445”。
“用户名”:填写配置CIFS协议时设置的用户名。
“密码”:填写配置CIFS协议时设置的密码。
“源端路径”:填写备份文件在NAS服务器中保存的完整路径。例如,“ 备份路径/备份任务名_数据源_任务创建时间”。
“队列名称”:填写备份任务执行时使用的YARN队列的名称。
“恢复点列表”:单击“刷新”,然后选择一个备集群上已备份的HDFS目录。
“最大map数”:填写执行MapReduce任务的最大map数,默认值为“20”。
“单个map的最大带宽(MB/s)”:填写单个map最大带宽,默认值为“100”。
- “SFTP”:表示备份文件通过SFTP协议保存在服务器中。
选择此参数值,还需要配置以下参数:
“IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
“服务器IP地址”:填写备份数据的服务器IP地址。
“端口号”:填写SFTP协议连接备份服务器使用的端口号,默认值为“22”。
“用户名”:填写使用SFTP协议连接服务器时的用户名。
“密码”:填写使用SFTP协议连接服务器时的密码。
“源端路径”:填写备份文件在备份服务器中保存的完整路径。例如,“ 备份路径/备份任务名_数据源_任务创建时间/版本号_数据源_任务执行时间.tar.gz ”。
“队列名称”:填写备份任务执行时使用的YARN队列的名称。
“恢复点列表”:单击“刷新”,然后选择一个备集群上已备份的HDFS目录。
“最大map数”:填写执行MapReduce任务的最大map数,默认值为“20”。
“单个map的最大带宽(MB/s)”:填写单个map最大带宽,默认值为“100”。
9.在“数据配置”中的“备份数据”列根据业务需要勾选一个或多个需要恢复的已备份数据,并在“目标名称空间”列,指定备份数据恢复的命名空间。
“目标名称空间”建议选择一个备份命名空间不同的位置。
10.在“强制覆盖”选择“true”,表示存在同名数据表时强制恢复备份的所有数据,如果数据表中存在备份后新增加的数据,那恢复后将丢失这些数据。选择“false”表示存在同名表时不执行恢复任务。
11.单击“校验”查看恢复任务的配置是否正确。
- 如果队列名称不正确,校验失败。
- 如果不存在指定的命名空间,校验失败。
- 如果不满足强制覆盖的条件,校验失败。
12.单击“确定”保存。
13.在恢复任务列表已创建任务的“操作”列,单击“执行”,开始执行恢复任务。
- 恢复成功后进度显示为绿色。
- 恢复成功后此恢复任务不支持再次执行。
- 如果恢复任务在第一次执行时由于某些原因未执行成功,在排除错误原因后单击“重试”,重试恢复任务。
14.检查是否是在全新安装,或者重新安装HBase的环境中恢复了HBase数据。
- 是,需要管理员在FusionInsight Manager上根据原有的业务规划重新设置角色的权限。
- 否,任务结束。