云容灾网关drm进程启动失败,如何处理 ?
问题描述 :安装部署完容灾网关或者代理客户端后,drm进程启动失败。
可能由以下原因导致:
- service账号对“/dev/null”目录没有写权限
- 本机无法解析hostname域名
处理方法 1 : 赋予service账号对“/dev/null”目录的读写权限。
步骤 1登录容灾网关或者代理客户端所在服务器。
步骤 2以“root”用户,执行以下命令,修改“/dev/null”目录权限。
chmod 666 /dev/null
步骤 3执行以下命令,检查“/dev/null”目录权限。
ll /dev/null
回显如下类似信息,表示权限设置成功:
crw-rw-rw- 1 root root 1, 3 Apr 9 09:21 /dev/null
处理方法 2 : 增加“hostname”域名解析。
步骤 1登录容灾网关或者代理客户端所在服务器。
步骤 2以“root”用户,执行以下命令,增加hostname域名解析。
echo "127.0.0.1 hostname
" >> /etc/hosts
步骤 3执行以下命令,检查hostname域名解析。
ping hostname
回显如下类似信息,表示权限设置成功:
PING test-dr (127.0.0.1) 56(84) bytes of data.64 bytes from localhost (127.0.0.1): icmp_seq=1 ttl=64 time=0.022 ms
切换/故障切换后,生产站点服务器与容灾站点服务器的hostname不一致
首次执行切换/故障切换操作前,用户修改了生产站点服务器的hostname。然后执行切换/故障切换,并启动容灾站点服务器,发现容灾站点服务器的hostname没有更新。可能的原因是,对于linux云主机,在首次执行切换/故障切换操作前,您如果在生产站点服务器内部修改了hostname,该修改不会自动同步到容灾站点服务器。
处理方法1:
对于暂未执行切换/故障切换操作的保护组,为保证开启容灾保护后,生产站点服务器与容灾站点服务器的hostname一致,您可以在首次执行切换/故障切换操作前,先在生产站点服务器内部修改cloudinit配置文件/etc/cloud/cloud.cfg,将“preserve_hostname: false”修改为“preserve_hostname: true”。
具体操作如下:
- 登录生产站点服务器。
- 执行以下命令,编辑配置文件“/etc/cloud/cloud.cfg”。
sudo vim /etc/cloud/cloud.cfg
- 修改“preserve_hostname”参数项。
- 如果文件“/etc/cloud/cloud.cfg”中已有参数项“preserve_hostname: false”,将其修改为“preserve_hostname: true”即可。
- 如果文件“/etc/cloud/cloud.cfg”中没有该参数项,需在“cloud_init_modules”模块前,添加语句 “preserve_hostname: true” 。
- 执行切换/故障切换操作。
切换/故障切换后,容灾站点服务器的主机名与生产站点服务器hostname保持一致。
处理方法2:
对于已经执行切换/故障切换操作,但是未提前修改配置文件/etc/cloud/cloud.cfg的生产站点服务器,您需要登录容灾站点服务器,手动修改容灾站点服务器的hostname,使其与生产站点服务器修改后的hostname保持一致。
故障切换后,为什么容灾站点的服务器上看不到网卡了?
存储容灾服务以保护组为单位进行生产站点和容灾站点的切换,按照场景可分为切换和故障切换。切换是指用户在生产站点未发生故障时,主动计划性的进行生产站点和容灾站点的切换。故障切换是指生产站点产生故障后,进行生产站点和容灾站点的切换。
- 切换时,保护实例中的生产站点服务器和容灾站点服务器的网卡会进行相互交换,保证切换前后服务器能以相同的IP地址、MAC地址等提供业务访问能力。
- 故障切换时,由于保护实例生产站点服务器处于故障状态,生产站点服务器的网卡会迁移到容灾站点服务器,容灾站点服务器的主网卡会卸载后处于“待使用”状态。所以故障切换完成时,原生产站点故障服务器会处于无网卡状态;等待故障服务器恢复后,通过保护组重保护操作,会将原容灾站点服务器卸载后处于“待使用”状态的主网卡挂载到原生产站点服务器,最终实现生产站点服务器和容灾站点服务器网卡相互交换。