1、详细问:
问各种信息信息,播放推流url是多少,外网IP是多少,哪些局域有影响,具体现象是怎么样的
2、在本地验证一下
3、梳理涉及到的各个环节,确定问题的维度
比如推拉流的场景:
上行:主播->边缘->中心->中心转码,切片等(可选)
下行:客户端->边缘->父层->中心
4、根据问题的特点,结合经验,猜测得到的各个怀疑点,利用grafana,抓包等快速获取到的信息,对涉及到的环节去排查定界
比如对之上的推拉流场景,在黑屏的时候,快速的先看中心是否有流,然后以此为基点,快速定界,中心有流,就往下行看,中心无流就看上行。依次类似二分查找的递归定界
5、在根据定界后的蛛丝马迹进行深入寻找原因
注意:
1、切忌一开始就突入日志分析的海洋中,而是先通过grafana等工具进行排查,在不得已需要查看日志的时候,也都要尽可能的通过grafana获取到目标机器名,sessionid,然后去该机器上,通过过滤sessionid来快速找到对应的信息。
2、另外定位问题的时候,还需要考虑确认问题维度,比如是大面积的节点维度的问题,还是域名维度的问题,还是流维度的问题,还是链接维度的问题。不同的维度的问题的寻找方向是不一样的。
例如大面积区域不分域名的卡顿,肯定是这个区域的公共资源出了问题,比如网络问题,对应父层或中心的cpu太高等