一次简单的网络故障排障,不复杂,主要记录了自己配合拓扑图和开源graylog日志软件使用来定位的问题的思路
1. 故障现象
2020年5月2日,接到故障反馈,在12:00-14:00这段时间内,27楼华为SDH传输终端电脑上客户客户端访问传输网管服务器异常,显示网元脱管,值班人员发现现象后,只是尝试从网络不同位置尝试ping华为SDH传输网管服务器,能够正常访问,同时对服务器网卡网线进行插拔操作,并未做其他处理,故障消失,一切正常。在故障期间,只有27楼播控部访问传输网管服务器异常,其他网元以及传输网管跳板机访问传输网管服务器时,均为正常,并未接到故障反馈。
2. 故障判断
整体网络拓扑和访问路径大致如下:
2.1. 查询日志
检查防火墙日志,故障时间段内,并未见华为SDH服务器,网元,27楼接入交换等安全区域有异常日志(日志中显示接口up/down,是值班人员操作)
检查收集的华为SDH服务器日志,故障时间段并未见异常日志 (日志中网卡断开是值班人员操作)
检查交换机日志,故障时间内并未显示异常
经过以上分析,故障问题定位在27楼接入网络中
27楼接入网络大样
对27接入网络中每台交换机检查日志,发现有接口UP/DOWN的记录,但是交换机时间配置错误,无法判断是否是故障时间内接口UP/DOWN
后来检查华为SDH终端到交换机的网线,发现网线未自制网线,非成品网线,水晶头老化严重,初步判断整体异常是网线质量导致
3. 故障分析
27楼华为SDH终端电脑,因为为了保持线路能够冗余能够切换到使用堡垒机环境,网卡配置了主备两个地址,网线质量不好,被人误触动时,电脑网卡中断,导致网路不能访问,当网线因质量问题频繁闪断,电脑以为线路切换,网卡切到备用地址生效,但是此时备用线路并未使用,网卡地址与传输网管服务器地址并不在同一个地址段,三层无法互通,导致访问异常;当网线恢复正常时,网卡地址并未及时回切,网络依旧中断,但是此时电脑并未显示掉线,从而导致异常故障发生。
4. 解决办法
1、使用成品网线更换故障网线
2、SDH终端电脑,删除网卡备用IP地址