引言
随着企业的业务不断发展,系统架构日益复杂,服务器数量越来越多,对系统的性能和可用性提出更高的要求,作为运维团队,如何保障业务连续性,开展稳定性运维建设,避免系统故障导致业务中断日益重要。
系统稳定性指标MTBF、MTTF、MTTR
彼得.德鲁克 现代管理学之父说过:If you can’t measure it, you can’t improve it.
如果你不能度量它, 你就无法改进它。
要提升系统稳定性,就需要有可以度量系统稳定性指标,我们将系统服务运行状态拆解来看,处于正常态的时间为无故障时间(MTTF),处于异常态的时间为恢复时间(MTTR)。
稳定性运维的本质就是尽可能去压降MTTR,提升MTTF。反映到故障维度来说,就是尽可能零故障或故障时长尽可能的短。
稳定性指标说明
- MTBF(Mean Time Between Failure)平均故障间隔时间
- MTTR(Mean Time To Repair)平均故障修复时间
- MTTF (Mean Time To Failure)平均失效前时间
MTTR细分
当发生故障时,故障平均修复时间(MTTR)如何缩短尤为重要。故障平均修复时间(MTTR)可以具体细分如下
故障平均修复时间(MTTR)具体细分
- MTTI(Mean Time To Identify)平均故障发现时间
- MTTK(Mean Time To Know)平均故障定位时间
- MTTF(Mean Time To Fix)平均故障解决时间
- MTTV(Mean Time To Verify)平均故障修复和验证时间
- MTTR=MTTI+MTTK+MTTF+MTTV
稳定性运维工作思考
从以上稳定性指标,我们可以关联出压降故障平均修复时间的工作方向,比如:
压降MTTI:监控告警、日常巡检、用户反馈响应
压降MTTK:监控分析、日志分析、链路分析、一键诊断
压降MTTF:应急预案、故障隔离、服务限流、容灾切换
压降MTTV:监控验证、日志验证、链路验证、服务验证、诊断验证