系统信息
CentOS Linux release 7.2.1511 (Core)
故障排查过程
使用strace df
命令对进程进行追踪,结果如下:
...
stat("/sys/fs/cgroup/cpu,cpuacct", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/fs/cgroup/blkio", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/fs/cgroup/hugetlb", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/fs/cgroup/memory", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/kernel/config", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/", {st_mode=S_IFDIR|0555, st_size=4096, ...}) = 0
stat("/proc/sys/fs/binfmt_misc", #<== 发现卡在这一步了!
故障原因
df 卡住问题在本质上还是由于 systemd 和 kernel 之间存在竞争而引起的, 导致其它程序访问挂载点的时候出现 hang 住的现象。
根据redhat bugzilla
的描述, 只要解决掉 mount 和 automount 过程中可能产生的竞争即可, 我们可以通过关闭proc-sys-fs-binfmt_misc.automount
释放已经存在的竞争来解决 df hang 住的问题。
解决方法
根据上面的原因说明,整体解决方式有三种:
-
(1)
systemctl restart proc-sys-fs-binfmt_misc.automount
; -
(2)升级到最新 systemd-219-57 版本;
-
(3)按照红帽知识库的步骤对
proc-sys-fs-binfmt_misc.automount
进行 mask 操作, 只进行静态的 mount 操作;
说明⚠️:一般使用第一种方式之后,df,find
等命令可以正常使用了!
扩充
df命令出现卡住的其他情况:
一般是挂载了nas盘 nas里面文件太多,数据读写操作不正常导致的返回卡住,这里使用命令:strace df -h
来判断是否df的进程卡在nas盘上。
相应的解决方法参考如下:
-
(1)耐心等待数据统计完成后返回;
-
(2)卸载 NFS 分区的挂载后重新统计;
-
(3)检查 NFS 分区访问情况;