“源端主机网络繁忙,无法连接api网关”该如何处理?
Agent无法正常启动,Linux系统提示“SMS.0201 Failed to start sms agent! Please check the network connection with below commands!”,Windows系统提示“SMS.0201 源端主机网络繁忙,无法连接api网关”。该问题通常是由于源端没有通公网,或者没有按照要求配置hosts,无法与iam或者sms通信导致。需要排查源端网络。
1.登录源端服务器。
2.检查源端是否能正常访问互联网,若无法访问,请处理后重新启动Agent。可参考弹性公网IP Ping不通检查源端的DNS,防火墙,安全组、本地网络等。
3.如果使用了代理服务器,请检查代理服务器是否正常。
常见代理问题:代理账号密码错误、代理服务器与公网不同、防火墙或其他软件限制。
不需要单独创建消费组、生产者和消费者,在使用时自动生成,实例创建后,直接使用即可。
金山云列举查询对象不完整,该如何处理?
金山云SDK获取系统编码为GBK,导致程序运行编码UTF-8字符乱码,从而查询数据参数乱码,导致列举对象缺失。
步骤 1 配置环境变量。
名称:JAVA_TOOL_OPTIONS
值:-Dfile.encoding=UTF-8
步骤 2 重启 RDA软件服务。
迁移过程中是否可以释放/修改弹性公网IP(EIP)?
不可以。
使用主机迁移服务公网迁移,源端迁移Agent会记录迁移开始时的目的端EIP,并在迁移和同步过程中通过该EIP进行数据传输。在迁移/同步过程中,释放/修改目的端EIP,会造成迁移/同步任务失败。
在迁移正常完成后,并且确认后续不再进行数据同步,才可以释放/修改目的端EIP。
“与目的服务器建立SSH连接失败”该如何处理?
Linux文件级迁移时,源端会和目的端服务器建立一个SSH连接用于传输数据。如果无法成功建立SSH连接,则会提示该错误。建议您参考本章节操作步骤排查SSH无法连接的原因。
- 检查目的端是否被关机
- 检查目的端安全组22端口是否被关闭或指定了一个非源端IP
- 检查迁移过程中目的端是否更换了VPC或者IP
- 检查源端防火墙出口方向是否有安全拦截
- 检查源端或目的端主机是否存在安全告警或者EIP被冻结
- 检查源端/root/.ssh/known_hosts记录的公钥和目的端的公钥是否不一致
- 检查是否安装ssh客户端
- 检查目的端sshd服务是否正常运行或监听端口是否被改为其他非22端口
- 检查是否使用了与目的端服务器未联通的内网进行迁移
“无法连接目的虚拟机,请检查目的虚拟机IP是否可达,或者8899、8900端口是否开放”该如何处理?
windows系统迁移时,目的端服务器需要开放8899端口与服务端通信,开放8900端口与源端通信。如果建立通信失败,则会提示该错误。建议您参考本章节操作步骤排查“无法连接目的虚拟机”的原因。
- 目的端Peagent异常
- 检查源端网络是否可以连通目的端
- 检查目的端安全组是否开放8899、8900端口
- 检查目的端网络ACL是否禁用了8899、8900端口
源端连通专线/VPN或内网VPC对等连接,还需要连通公网吗?
源端服务器和目的端服务器之间连通专线/VPN或内网VPC对等连接只用于数据流的传输,源端服务器和主机迁移服务端之间控制流需要通过公网传输,因此源端必须连通公网。
1)、控制流:源端服务器和主机迁移服务端之间迁移指令的交互过程。
迁移指令交互包括:
步骤②:源端服务器上的迁移Agent向主机迁移服务注册自身连接状态,并将源端服务器信息上报到主机迁移服务,完成迁移可行性检查。
步骤④:迁移Agent获取并执行主机迁移服务发送的迁移指令。
2)、数据流:源端服务器上磁盘数据的迁移过程。
磁盘数据迁移包括:
步骤⑤:迁移源端服务器系统盘。
步骤⑥:迁移源端服务器数据盘。
迁移进度卡住或过慢该怎么办?
迁移过程中,进度条变化很慢或者没变化。该现象可能由多个原因造成,如网络带宽、源端存在大量小文件、linux文件迁移同步阶段差异比较等。
· 检查源端及目的端带宽,迁移过程中尽可能提高带宽。在不影响业务的情况下,尽可能提供充裕的带宽给迁移进程。
· 检查源端是否存在大量小文件,请尽可能清理一些可删除文件。
· Linux文件级迁移同步过程中,如果同步进度长时间在6%,请耐心等待,迁移进程正在对目的端和源端进行差异比较并同步。
· 检查管理控制台上“迁移实时状态”是否为“连接断开”。如果连接正常,请耐心等待。如果连接失败,请检查后重新发起任务。
迁移需要多长时间?
首先使用iperf测试源端到目的端服务器的TCP速度。
其中:
· T表示迁移时间,单位为h。
· C表示源端服务器所有使用数据量,单位为GB。
· S表示源端到目的端服务器的TCP速度,单位为Mbit/s。
· U表示网络利用率,与网络质量(抖动、时延、丢包)有关,通常在50%~80%之间。
例如:迁移源端服务器所有使用数据量为100GB,iperf测试出来的TCP速度为100Mbit/s,网络利用率为70%,那么迁移时间为:
迁移时间T = 100GB * 1000*8 / 100Mbit/s/ 3600 /70%≈ 3.17h
迁移速度由源端带宽决定还是目的端带宽决定?
迁移速度取决于源端的出口带宽和目的端的入云带宽。取两者中较小值进行迁移。
如何处理“权限不够,请添加相应细粒度权限”?
问题描述:迁移过程中提示“SMS.0204权限不够,错误原因:xxx,请添加相应细粒度权限”。具体的错误原因与缺失的细粒度权限有关。
问题原因和解决方案:
1、 目的端账户余额不满足大于100元的条件,余额不足会导致迁移失败,请充值或申请权限,然后重新发起迁移任务。
2、 主机迁移服务在迁移过程中会用到ECS,VPC,IMS,EVS等的相关权限,缺少其中的某些权限会导致迁移失败。请检查权限并在IAM控制台创建用户组,授予“SMS
FullAccess”、"OBS OperateAccess"、“ECS FullAccess”、“VPC FullAccess”权限。
迁移需要在控制机,源端和目标端分别开放哪些端口?
请参考RDA 控制台页面,配置管--网络设置—通信矩阵菜单项,开放对应端口:
新建迁移任务需要对目的端服务器做哪些准备?
迁移前,若选择迁移到已有服务器,请做以下准备工作:
- 确保天翼云上有满足条件的弹性云服务器。
- 确保源端服务器可以访问目的端服务器(即弹性云服务器),即要有可用的EIP,或者配置VPN、专线。
- 确保目的端服务器所在VPC安全组配置准确。需配置目的端服务器所在VPC安全组,如果是Windows系统需要开放TCP的8899端口、8900端口和22端口;如果是Linux系统,块级迁移开放8900端口和22端口,文件级迁移开放22端口。
- 迁移过程中禁止操作目的端弹性云服务器(包括关机、重启、挂载磁盘、卸载磁盘、修改密码等),否则会导致迁移失败。
如何配置目的端服务器安全组规则?
- 登录管理控制台。
- 单击控制台左上角,选择区域和项目。
- 选择“计算 > 弹性云主机”。
- 在弹性云服务器列表,单击待变更安全组规则的弹性云服务器名称。系统跳转至该弹性云服务器详情页面。
- 选择“安全组”页签,并单击,查看安全组规则。
- 单击“更改安全组规则”。系统跳转至安全组页面。
- 在“入方向规则”页签下,单击“添加规则”,配置安全组入方向的访问规则。
- 单击“确定”,完成安全组规则配置。
源端连通专线/VPN或内网VPC对等连接,还需要连通公网吗?
源端服务器和目的端服务器之间连通专线/VPN或内网VPC对等连接只用于数据流的传输,源端服务器和主机迁移服务端之间控制流需要通过公网传输,因此源端必须连通公网。
图 主机迁移工作原理
1、控制流:源端服务器和主机迁移服务端之间迁移指令的交互过程。
迁移指令交互包括:
步骤②:源端服务器上的迁移Agent向主机迁移服务注册自身连接状态,并将源端服务器信息上报到主机迁移服务,完成迁移可行性检查。
步骤④:迁移Agent获取并执行主机迁移服务发送的迁移指令。
2、数据流:源端服务器上磁盘数据的迁移过程。
磁盘数据迁移包括:
步骤⑤:迁移源端服务器系统盘。
步骤⑥:迁移源端服务器数据盘。
“域名解析失败”该如何处理?
创建迁移任务后,开始迁移时,错误&风险提示“SMS.0302 域名%s解析失败”。出现该问题是因为有域名解析失败,只有所有域名解析成功,源端服务器才能与RDA主机迁移服务建立联系,进行迁移。如果有域名解析失败,则会提示该错误。
导致域名解析失败的原因有:
- 本地网络故障。
- 云解析服务器的解析记录异常。
- 域名解析记录在DNS被修改或者缓存。
“域名联通失败”该如何处理?
问题描述
创建迁移任务后,开始迁移时,错误&风险提示“SMS.0303 域名%s联通失败”。
问题分析
迁移时,需要所有域名联通,如果有域名联通失败,则会提示该错误。
导致域名联通失败的原因有:
- 网络处于异常状态,比如超时、断网、网络不通等情况下可能会导致域名联通失败。
- 防火墙安全拦截。
- 源端存在安全告警或者EIP被解绑/冻结。
- 安全组出方向规则关闭。
解决方案
- Ping一下其他域名。若能Ping通,则排除网络异常;若Ping不通,请检查本地网络状态。
- 检查源端防火墙出口方向是否有安全拦截,如果有拦截,放行后继续迁移。
- 检查源端是否存在安全告警或者EIP被解绑/冻结。如果存在解绑情况,可选择重新绑定或使用VPC/内网;如果存在冻结情况,请联系ECS或EIP服务技术支持。
- 检查源端是否关闭出方向规则。
如何查看剩余迁移时间?
迁移剩余时间是根据您的剩余数据量与迁移过程中的实际迁移速率计算得来,由于您迁移的过程中的速率存在一定的波动,因此剩余迁移时间无法被准确计算,且会随之波动。您可参考以下方式查看剩余迁移时间。
- 登录RDA控制台。
- 在左侧导航树中,选择“迁移服务器”。进入服务器列表页面。
- 单击服务器名称前的按钮,即可查看预测的剩余迁移时间。
如何加快迁移速度?
- 需要提升您的网络速率。如果网络速率小于500kbit/s,您需要排查以下三个方面:
- 如果源端服务器在数据中心,请您排查源端服务器所在网络到公网的带宽、交换设备、路由设备、安全设备(防火墙等)、网络线路、协议网络相关因素等是否有限制或者使用不正确。如果有问题,需要您联系网络专业人员修复。建议您源端服务器所在网络到天翼云公网的网络速率大于10Mbit/s。
- 排查源端出口带宽和目的端入云带宽大小,扩大两者之间较小的带宽,也可根据需求将两者同时扩大。
- 确保源端服务器与目的端服务器的OS设置正确。对于Windows系统,您可以使用
perfmon
命令调用资源监视器监控网络;对于Linux系统,推荐使用sar工具监控或者使用/proc/net/dev
监控网卡的速度。如果网速较慢,说明您的OS配置可能不正确。需要提醒的是,您的OS服务、进程等不能对网卡做限速。
- 如果您源端服务器有大量的文件(例如50万个100KB的文件),并且这些文件是残留的无用数据,请提前删除再做迁移。
- 请排查您源端服务器的I/O读写性能、CPU性能。Windows可以使用
perfmon
命令调用资源监视器监控CPU和I/O读写性能,Linux使用top/ps
和iostat/iotop
来监控CPU和I/O性能。如果您的源端I/O读写性能、CPU性能差,建议您增加I/O和CPU的资源或者减少服务器运行的负载。
为什么迁移进度条进度时快时慢?
在主机迁移的过程中,除了迁移还包含了模块初始化、备份、清理等各种操作,这些操作也会推动进度条的增长,而这些操作的用时难以准确预估,因此会导致迁移进度条增速时快时慢。该现象属于正常现象,请耐心等待迁移完成即可。
Iperf的测试网络的方法?
前提条件
- 保证源端与目的端网络连通,以及天翼云上目的端服务器的安全组规则允许Iperf测试端口开放。
- 该测试需要在迁移前进行,而且在源端服务器上运行的业务对网络影响不大,否则测试数据不准。
测试步骤
- 根据源端服务器的OS类型下载对应iperf版本。
- 在源端服务器和目的端服务器(或者目的端服务器同一Region下的其他弹性云服务器)某一个目录下解压iperf工具。例如在Windows操作系统的iperf工具:
- 在目的端服务器上,以命令行方式运行iperf(服务端模式运行,以Windows操作系统为例):
-
执行以下命令,进入iperf目录。
cd /d path
其中,path指2中iperf工具解压后在目的端服务器中的路径。
-
执行以下命令,以服务端运行iperf。
iperf3 -p port -s
其中,port表示iperf工具的服务端监听端口,建议Windows操作系统使用8900端口(8900为目的端服务器使用的数据传输端口),Linux操作系统使用22端口(22为目的端服务器使用的数据传输端口)。您测试的时候也可以使用其他端口,但要保证目的端服务器安全组规则允许开放该TCP或者UDP端口。以Windows操作系统使用8900端口为例,当回显信息为Server listening on 8900时,表明服务端已经运行就绪。
-
- 在源端服务器上,以命令行方式运行iperf(客户端模式运行),测试TCP带宽和UDP的抖动、丢包率和带宽(以Windows操作系统为例)。
-
执行以下命令,进入iperf目录
cd /d path
其中,path指2中iperf工具解压后在源端服务器中的路径。
-
执行以下命令,运行iperf工具,测试TCP带宽。
iperf3 -c target_IP -p port -t time
其中,-c是客户端模式运行。
target_IP 表示目的端服务器(即以服务端模式运行iperf的服务器)的IP地址。
port表示连接目的端服务器的端口。
time表示测试总时间,默认单位为秒。以Windows操作系统使用8900端口为例,iperf客户端连接到iperf服务端成功后会进行带宽(Bandwidth)测试,测试结束后查看结果即可:
-
执行以下命令,运行iper测试UDP的抖动、丢包率和带宽。
iperf3 -c target_IP -p port -u -t time
其中,-u表示测试UDP的抖动、丢包率和带宽。
target_IP 表示目的端服务器(即以服务端模式运行iperf的服务器)的IP地址。
port表示连接目的端服务器的端口。
time表示测试总时间,默认单位为秒。以Windows操作系统使用8900端口为例,iperf客户端连接到iperf服务端成功后会测试UDP的抖动(Jitter)、丢包率(Lost/Total Datagrame)和带宽(Bandwidth),测试结束后查看结果即可。
-
若需要测试网络时延,可以使用ping命令。
ping target_iP
target_IP 表示目的端服务器(即以服务端模式运行iperf的服务器)的IP地址。需要配置目的端服务器所在的VPC的安全组规则,允许ICMP协议报文通过。
-
- 执行命令
iperf3 -h
,获取更多的iperf的使用帮助。
迁移中升级带宽后,迁移使用的是升级前的带宽还是升级后的带宽?
升级带宽后,迁移使用的实际带宽取决于下面最小的带宽。升级带宽后,需要等待5-10分钟,才可生效,请耐心等待。
- 源端服务器升级后的带宽。
- 目的端服务器入云带宽。
- SMS控制台设置的网速限制。
迁移速度由源端带宽决定还是目的端带宽决定?
迁移速度取决于源端的出口带宽和目的端的入云带宽。取两者中较小值进行迁移。
如何判断迁移任务是不是卡住?
迁移任务如果长时间不动,可能是以下三种情况,需要查看源端Agent日志确定。
- 情况一:迁移任务处于“持续同步”阶段。
“持续同步”是主机迁移服务新增的功能,会自动同步源端数据。在配置目的端时,“是否持续同步”选择“是”,全量复制完成后会自动进入“持续同步”阶段。
迁移任务处于“持续同步”阶段的时候,迁移并没有完成,需要手动启动目的端,因此,在未手动启动目的端前,迁移任务会一直处于“持续同步”阶段。启动目的端完成后,才算一次完整的迁移。
- 情况二:数据迁移中。
数据迁移进行全量复制时,长时间处于某一进度,可能是由于迁移数据量大,迁移速率慢,导致长时间内进度无明显变化,需要查看日志进行确认。若迁移速率不为0,已迁移数据量持续增加,则表明迁移正常。
- 情况三:启动目的端卡住。
1、启动目的端后任务进度条长时间为0,可能是在执行最后一次同步任务。启动目的端时会进行一次数据同步,期间进度条无变化,数据同步时间长短由源端数据量决定,如果数据量过大,会导致数据比对时间长,该现象为正常现象。若要确定是否在进行数据同步,可查看sms_Info.log最新日志,若启动目的端之后未出现error级别日志,则表明任务正常。
2、启动目的端后任务进度条有进度但长时间无变化,可尝试暂停任务,再次启动任务,等待一段时间(10分钟左右)再次查看是否发生变化。
影响迁移速度的因素有哪些?
可能会导致迁移速度慢、迁移时间长的因素如下表。
操作系统 | 影响因素 | 说明 |
---|---|---|
- | CPU和内存占用率 | 迁移过程中会占用源端主机的一部分内存和CPU,占用情况根据主机的实际情况有所不同。迁移前确保源端主机CPU和内存占用率不高于75%,实际预留内存不少于520MB。 |
网络带宽 | 主机迁移对网络有较为严格的要求,需要保证源端和目的端网络通畅,源端与目的端的网络延迟不能过高,迁移带宽取源端和目的端之间较小值。 | |
Windows | 磁盘碎片 | Windows是块级迁移,迁移会读取磁盘中的有效块,由于Windows的特性,在日常使用中会产生大量的磁盘碎片,通常Windows使用时间越长,磁盘碎片会越多,从而影响迁移时长。 |
Linux | 文件过大 小文件过多 |
Linux是文件级迁移,源端小文件过多或者有比较大的文件,都会影响迁移速度。 * 源端单个文件超过2GB,可能导致迁移时间长。* 源端小文件数据量过多,比如有超过一万个小于20KB的小文件,可能导致迁移时间长 |
可能会导致同步时间长的因素如下表。
操作系统 | 影响因素 | 说明 |
---|---|---|
- | 源端增量数据较多 源端变化数据较多 |
在同步过程中,如果源端产生的增量数据较多或者源端较多数据发生变化,会导致同步时间较长。 |
Windows | 碎片文件过多 | 在同步过程中,如果源端产生的碎片文件较多,会导致同步时间长。 |
Linux | 存在较大的稀疏文件 | 在同步过程中,系统会扫描稀疏文件,但不会迁移稀疏文件,如果源端有较大的稀疏文件,会导致同步时间长。 |
Linux块迁移,为什么实际迁移速率显示很低?
Linux块迁移时,实际迁移速率显示很低,远小于宽带的速率。
出现这种现象的原因,一般但不限于以下场景:
- 磁盘中数据占有率较低。
- 磁盘中存储了大量的稀疏文件。
Linux块迁移,在执行迁移的过程中会对数据进行压缩,当需要迁移的磁盘块本身存储数据较少,或者是空的磁盘块,会导致数据压缩率很高(如:100M压缩为5M),而迁移执行过程中传输的数据为压缩后的数据,所以在传输这些数据较小的磁盘块时,显示的传输速率很低。实际上,在这种场景下迁移还在正常快速的执行,网络连接、带宽等都是正常的。
迁移中源端有新增的数据如何处理?
启动目的端后,若源端有新增的数据,单击此服务器所在行的操作列的“同步”,开始下一次复制(增量数据),当迁移状态为“持续同步”时,单击“启动目的端”,迁移实时状态为“已完成”时,说明新增数据已同步到目的端。
“迁移模块异常中止,无法同步”怎么处理?
问题描述
持续同步过程中出现“SMS.1414 迁移模块异常中止,无法同步”。
问题原因
迁移模块异常终止可能是因为用户手动重启过Agent或者源端服务器被重启过。
源端有一个监控磁盘变化的进程,用于将源端变化的部分同步到目的端。重启之后该进程被终止,会导致无法正确的将源端服务器的变化同步到目的端。
解决方案
该场景下无法继续完成迁移任务,请删除该任务后,重新迁移。请注意迁移过程中不要重启源端服务器或Agent。
Windows迁移过程中,源端SMS-Agent突然退出,导致与主机迁移控制台断开连接
问题描述
Windows服务器迁移过程中,源端突然与SMS控制台断开连接,查看源端发现是迁移用的SMS-Agent程序退出。
问题分析
出现该问题,可能是因为源端服务器“客户体验改善计划”导致SMS-Agent程序退出。
- 查看SMS-Agent迁移日志中断时间。(
C:\SMS-Agent-Py3\SmsAgent_Info.log
) - 在源端服务器,打开计算机管理。选择“事件查看器>Windows 日志>系统”。
- 在系统日志中,查看与SMS-Agent迁移日志中断时间对应的系统日志。发现是因为一条客户体验改善计划的用户登录通知,导致源端服务器自动重启。
解决方案
关闭“客户体验改善计划”。
- 在源端服务器,打开运行窗口,输入:
gpedit.msc
,单击“确定”,打开“组编辑策略器”。 - 在导航栏,选择“计算机配置>管理模板>系统>Internet通信管理>Internet 通信设置”,找到“关闭Windows 客户体验改善计划”。
- 双击“关闭Windows 客户体验改善计划”,打开编辑窗口,选择“已启用”,单击“确定”。
- 打开计算机管理,选择“系统工具>任务计划程序库>Microsoft>Windows>Customer Experience Improvement Program”,禁用所有任务。
- 选择“系统工具>任务计划程序库>Microsoft>Windows>Application Experience”,禁用所有任务。
- 禁用客户体验改善计划相关任务后,需要在RDA控制台删除迁移任务,重新创建并启动迁移任务。