问题现象
超融合集群在压测rbd过程中,出现osd随机down的情况
排查方向
分为两方面排查:
- 网络
- 硬盘
网络排查
使用iperf3工具打流,查看网络环境质量
测试发现retry数量较多,需要排查网络问题,优化网络环境。
经过修改交换机部分配置后,iperf3打流结果retry量大幅减少,然而osd依然频繁随机down,需要排查磁盘方向。
硬盘排查
排查raid卡
查看raid卡日志,发现出现了raid卡对硬盘读写时出现了command timeout,然后reset硬盘的情况
查看demesg发现该硬盘被重新上电重启的情况。
查看厂家对command timeout on pd的说明:是块设备层提交io到阵列卡后,阵列卡下发给盘超时没返回。
下一步的排查方向:
- raid卡本身问题
- 取盘底层log,排查是不是盘处理的问题
- 中间链路如背板expander的问题
最终解决方案:
更换现场的raid卡后,多次压测问题未复现