searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

osd频繁随机down问题排查过程

2023-10-07 08:15:40
4
0

问题现象

超融合集群在压测rbd过程中,出现osd随机down的情况

排查方向

分为两方面排查:

  1. 网络
  2. 硬盘

网络排查

使用iperf3工具打流,查看网络环境质量

测试发现retry数量较多,需要排查网络问题,优化网络环境。

经过修改交换机部分配置后,iperf3打流结果retry量大幅减少,然而osd依然频繁随机down,需要排查磁盘方向。

硬盘排查

排查raid卡

查看raid卡日志,发现出现了raid卡对硬盘读写时出现了command timeout,然后reset硬盘的情况

查看demesg发现该硬盘被重新上电重启的情况。

查看厂家对command timeout on pd的说明是块设备层提交io到阵列卡后,阵列卡下发给盘超时没返回。

下一步的排查方向:

  1. raid卡本身问题
  2. 取盘底层log,排查是不是盘处理的问题
  3. 中间链路如背板expander的问题

最终解决方案

更换现场的raid卡后,多次压测问题未复现

0条评论
0 / 1000
Mr. 油
89文章数
0粉丝数
Mr. 油
89 文章 | 0 粉丝
原创

osd频繁随机down问题排查过程

2023-10-07 08:15:40
4
0

问题现象

超融合集群在压测rbd过程中,出现osd随机down的情况

排查方向

分为两方面排查:

  1. 网络
  2. 硬盘

网络排查

使用iperf3工具打流,查看网络环境质量

测试发现retry数量较多,需要排查网络问题,优化网络环境。

经过修改交换机部分配置后,iperf3打流结果retry量大幅减少,然而osd依然频繁随机down,需要排查磁盘方向。

硬盘排查

排查raid卡

查看raid卡日志,发现出现了raid卡对硬盘读写时出现了command timeout,然后reset硬盘的情况

查看demesg发现该硬盘被重新上电重启的情况。

查看厂家对command timeout on pd的说明是块设备层提交io到阵列卡后,阵列卡下发给盘超时没返回。

下一步的排查方向:

  1. raid卡本身问题
  2. 取盘底层log,排查是不是盘处理的问题
  3. 中间链路如背板expander的问题

最终解决方案

更换现场的raid卡后,多次压测问题未复现

文章来自个人专栏
存储专栏
89 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0