1.问题背景
CDN线上有一些节点机器cpu存在突刺,都是在晚上业务高峰期才出现。该节点存在大量的小文件访问,使用了固态硬盘。经过线下压测模拟复现了线上的问题现象。
2.问题原因
通过工具发现cpu突刺时的堆栈信息在对一张共享内存哈希表进行非常高频的更新与访问。主要原因为:1.需要更新当前主机url的访问量信息。2需要提供查询接口当前主机url的访问信息。
由于存在对临界资源的更新和访问,需要对读写加锁。目前锁为自旋锁,自旋锁在加锁不成功时,一直尝试不会释放cpu资源。当临界区操作很短暂时,自旋锁处理的性能就非常高。但如果很多个进程(80个nginx worker进程)同时竞争一把自旋锁时,就会导致锁冲突加剧,cpu突刺明显。由于不能及时释放cpu计算资源,对主机上的其他进程也会产生影响。
3.优化方案
为了避免n多个进程竞争同一把自旋锁,需要对锁进行分级管理:分为外层锁和内层锁。外层锁只有有限的N把,内层锁只有一把。
进程在读写共享内存哈希表之前,根据一定的哈希算法,哈希到某个外层锁加锁,只有加锁成功后,才有资格对内层锁加锁。
如果外层锁加锁失败,则调度后续其他请求继续处理,将本次请求放到调度队列最后。最终竞争内存自旋锁的只有有限的几个进程。这样就大大降低了冲突概率。