运维反馈,某存储资源池,内存异常,
登录查看:
配置:CPU:Intel(R) Xeon(R) Gold 5218R CPU @ 2.10GHz 80核
内存:394857632KB(376G)
运维报告ceph域可用内存过小,ceph本身占用没有这么大,内存不知道被谁占用了
通过free -g查看内存使用为252G
查看进程内存使用情况:
进程只使用了25.5G内存
通过meminfo查看
发现除去Free、 Buffers、 Cached、Slab等占用,还有相当多的内存没有显示出来;
使用trace工具分析内存的总的占用情况:
发现直接allocPages 分配的内存相当多;
在ceph重启后拉起过程中,发现内存被快速消耗,几乎1分钟消失几个G内存,此时抓取分析1分钟内内核的内存分配情况,发现有如下分配占比较大
初步分析结果:
XFS文件系统使用了很多alloc_page接口直接分配了内存,使用free meminfo等无法查看,
由于此环境是线上环境,很多分析手段用不了,如需进一步分析需要单独搭建测试环境。