洞察异常的本质-记一次异常排查-天翼云

洞察异常的本质-记一次异常排查

2023-07-06 08:32:07 阅读次数：372

你看见的日志中的异常信息真的是引发系统崩溃的原因吗？

实际案例：xxxx项目中，我们有一个向调用方提供日活千万级的接口。在项目运行的过程中按半个月周期性的出现过一些异常信息。

洞察异常的本质-记一次异常排查

这个异常的信息表明redis连接超时了，当时我看到这个异常，以为是redis连接池设置小了或者是redis超时设置小了。我当时得出的可能结论是：

洞察异常的本质-记一次异常排查

于是我更改了redis连接池的配置，不限定连接池的大小，同时将连接超时时间设置为30s。

可是一个周期过去了，该出现的问题还是出现了。因为错误量太大，上万的redis错误异常湮灭了真正的异常信息，只找到了java heap的异常，所以我猜测是可能是哪里出现了内存泄漏，将内存占用满了，但是在64为的jdk中，如果不是为现在应用程序使用的资源，java应用程序理论上不需要为了增加可使用的内存而去设置jvm的启动参数。这次周期没有发现什么有价值的异常，只知道内存泄漏导致gc异常，从而导致redis连接池获取不到资源，造成redis出现command timeout的异常。后来我在审计日志的时候发现，曾经出现过

洞察异常的本质-记一次异常排查

这个异常，印证了内存泄漏的观点。后来又发现了由于内存不足导致的连接被挂起的异常等等，在证实了内存泄漏的问题之后，我开始审计代码，发现代码中之前为了留调用证据，给每次调用都记录了日志，后来又因为调用量太大，避免让数据库存按月以亿级增长的没啥意义的调用日志，就将存日志部分代码注释了，但是将日志信息放入队列的操作并没有注释掉，导致该队列无限增长，从而引起了内存泄漏。解决完这个之后，重新发布，问题没有再出现过。

这个案例中，系统首先出现的Bug是redis连接池抛出的异常，不能一头扎入某单个异常中，需要分析可能引起该异常的原因。找到能够合理解释的最终异常。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

洞察异常的本质-记一次异常排查

洞察异常的本质-记一次异常排查

相关文章

30天拿下Rust之unsafe代码

javascript 西瓜一期 05-08 计算机的基本组成

java应用性能调优之详解System的gc垃圾回收方法

解决tomcat部署项目中碰到的几个问题

redis配置参数详细说明

【面试题】MySQL的三大日志（Redo Log、Binlog和Undo Log）各有什么区别

深入理解 ThreadLocal 的线程安全机制与实践应用

php phpexcel导文件爆500(爆内存) && 应对

利用自定义注解优化操作日志记录

数组和链表的区别

作者介绍

最新文章

php phpexcel导文件爆500(爆内存) && 应对

数据库设计与管理的要点详解

什么是归档日志，日志归档简介

Linux系统性能调优技巧

极限挑战：40亿个非负整数中找到没有出现的数（bit数组）

算法实战：快速找到100亿个URL中的重复项！

热门文章

获取服务器CPU、内存等各类信息工具类

Redis持久化存储策略（RDB、AOF）

linux的存储管理

查看Redis的默认设置的过期策略和内存淘汰机制

libcurl第十二课 内存分析

JS 变量、作用域与内存

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Yarn架构设计详解

【内存】内存对齐 的原理

redis的列表list操作

C 语内存趣飞扬，函数开篇喜洋洋

数据库优化 - 实例优化

使用 Rust 实现零拷贝数据处理：性能优化的极致探索

libcurl第十二课内存分析

【内存】内存对齐的原理