云容灾网关drm进程启动失败，如何处理？

问题描述 ：安装部署完容灾网关或者代理客户端后，drm进程启动失败。

可能由以下原因导致：

service账号对“/dev/null”目录没有写权限
本机无法解析hostname域名

处理方法 1 ：赋予service账号对“/dev/null”目录的读写权限。

步骤 1登录容灾网关或者代理客户端所在服务器。

步骤 2以“root”用户，执行以下命令，修改“/dev/null”目录权限。

chmod 666 /dev/null

步骤 3执行以下命令，检查“/dev/null”目录权限。

ll /dev/null

回显如下类似信息，表示权限设置成功：

crw-rw-rw- 1 root root 1, 3 Apr 9 09:21 /dev/null

处理方法 2 ：增加“hostname”域名解析。

步骤 1登录容灾网关或者代理客户端所在服务器。

步骤 2以“root”用户，执行以下命令，增加hostname域名解析。

echo "127.0.0.1 hostname" >> /etc/hosts

步骤 3执行以下命令，检查hostname域名解析。

ping hostname

回显如下类似信息，表示权限设置成功：

PING test-dr (127.0.0.1) 56(84) bytes of data.64 bytes from localhost (127.0.0.1): icmp_seq=1 ttl=64 time=0.022 ms

安装容灾网关时，网关drm进程已经存在，7443端口未被监听，导致配置安装云容灾网关失败

虚拟机执行命令：

cat /proc/sys/kernel/random/entropy_avail

查看返回值是否小于500，若小于500，需安装haveged，以满足加密程序对系统熵的要求；系统熵不足会导致线程阻塞问题，网关drm进程存在，7443端口监听很慢或不被监听。

解决方法：

使用haveged对/dev/random补熵，下载，安装并启动haveged。

查看熵值，与初始熵值对比。

cat /proc/sys/kernel/random/entropy_avail

生产站点服务器或网关上报的主机名称不正确，始终显示为"localhost"如何处理？

问题描述

生产站点服务器或网关上报的主机名称不正确，始终显示为"localhost"。

根因分析

因为主机以最小（minimal）模式安装或未安装网络和域名解析相关服务导致无法正确获取到主机名。

处理建议

生产站点服务器和网关不要以最小（minimal）模式安装，否则可能会导致缺少关键功能而导致SDRS服务异常。
如果以minimal模式安装，需要手动修改 /etc/hosts文件，增加一行“本机IP和主机名”。
示例："192.168.0.1 sdrs-hostname"

切换后，容灾端虚拟机未正常拉起如何处理？

问题原因

SDRS异步复制具备崩溃一致性，切换时内存中的数据可能会丢失，在容灾站点可能需要利用应用或文件系统的崩溃修复功能进行修复，大多数情况下可以将数据恢复到一致状态并正常使用。

处理建议

示例：切换后容灾机器启动失败，发生XFS异常（LSN校验失败），OS进入紧急模式。

修复手段：执行journalctl命令，确认xfs文件系统异常报错；在emergency mode下，使用xfs_repair命令进行修复。

生产主机服务器如何获取网关上的安装包？

生产主机服务器获取网关上的安装包可以通过sftp或者scp等远程传输工具传输。

示例如下：

登录Windows虚拟机，打开powershell，执行如下命令

sftp root@***.***.*.*
get sdrs_win_******.zip C:\Users\Administrator\Desktop\sdrs_win_******.zip

切换/故障切换后，生产站点服务器与容灾站点服务器的hostname不一致

首次执行切换/故障切换操作前，用户修改了生产站点服务器的hostname。然后执行切换/故障切换，并启动容灾站点服务器，发现容灾站点服务器的hostname没有更新。可能的原因是，对于linux云主机，在首次执行切换/故障切换操作前，您如果在生产站点服务器内部修改了hostname，该修改不会自动同步到容灾站点服务器。

处理方法1：

对于暂未执行切换/故障切换操作的保护组，为保证开启容灾保护后，生产站点服务器与容灾站点服务器的hostname一致，您可以在首次执行切换/故障切换操作前，先在生产站点服务器内部修改cloudinit配置文件/etc/cloud/cloud.cfg，将“preserve_hostname: false”修改为“preserve_hostname: true”。

具体操作如下：

登录生产站点服务器。
执行以下命令，编辑配置文件“/etc/cloud/cloud.cfg”。

sudo vim /etc/cloud/cloud.cfg

修改“preserve_hostname”参数项。

如果文件“/etc/cloud/cloud.cfg”中已有参数项“preserve_hostname: false”，将其修改为“preserve_hostname: true”即可。
如果文件“/etc/cloud/cloud.cfg”中没有该参数项，需在“cloud_init_modules”模块前，添加语句 “preserve_hostname: true” 。

执行切换/故障切换操作。

切换/故障切换后，容灾站点服务器的主机名与生产站点服务器hostname保持一致。

处理方法2：

对于已经执行切换/故障切换操作，但是未提前修改配置文件/etc/cloud/cloud.cfg的生产站点服务器，您需要登录容灾站点服务器，手动修改容灾站点服务器的hostname，使其与生产站点服务器修改后的hostname保持一致。

故障切换后，为什么容灾站点的服务器上看不到网卡了？

存储容灾服务以保护组为单位进行生产站点和容灾站点的切换，按照场景可分为切换和故障切换。切换是指用户在生产站点未发生故障时，主动计划性的进行生产站点和容灾站点的切换。故障切换是指生产站点产生故障后，进行生产站点和容灾站点的切换。

切换时，保护实例中的生产站点服务器和容灾站点服务器的网卡会进行相互交换，保证切换前后服务器能以相同的IP地址、MAC地址等提供业务访问能力。
故障切换时，由于保护实例生产站点服务器处于故障状态，生产站点服务器的网卡会迁移到容灾站点服务器，容灾站点服务器的主网卡会卸载后处于“待使用”状态。所以故障切换完成时，原生产站点故障服务器会处于无网卡状态；等待故障服务器恢复后，通过保护组重保护操作，会将原容灾站点服务器卸载后处于“待使用”状态的主网卡挂载到原生产站点服务器，最终实现生产站点服务器和容灾站点服务器网卡相互交换。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

存储容灾服务

存储容灾服务

云容灾网关drm进程启动失败，如何处理？

安装容灾网关时，网关drm进程已经存在，7443端口未被监听，导致配置安装云容灾网关失败

生产站点服务器或网关上报的主机名称不正确，始终显示为"localhost"如何处理？

问题描述

根因分析

处理建议

切换后，容灾端虚拟机未正常拉起如何处理？

问题原因

处理建议

生产主机服务器如何获取网关上的安装包？

切换/故障切换后，生产站点服务器与容灾站点服务器的hostname不一致

故障切换后，为什么容灾站点的服务器上看不到网卡了？

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

存储容灾服务

存储容灾服务

云容灾网关drm进程启动失败，如何处理 ？

安装容灾网关时，网关drm进程已经存在，7443端口未被监听，导致配置安装云容灾网关失败

生产站点服务器或网关上报的主机名称不正确，始终显示为"localhost"如何处理？

问题描述

根因分析

处理建议

切换后，容灾端虚拟机未正常拉起如何处理？

问题原因

处理建议

生产主机服务器如何获取网关上的安装包？

切换/故障切换后，生产站点服务器与容灾站点服务器的hostname不一致

故障切换后，为什么容灾站点的服务器上看不到网卡了？

云容灾网关drm进程启动失败，如何处理？