searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

浅谈稳定性运维建设衡量指标

2024-05-29 09:16:12
93
0

引言

随着企业的业务不断发展,系统架构日益复杂,服务器数量越来越多,对系统的性能和可用性提出更高的要求,作为运维团队,如何保障业务连续性,开展稳定性运维建设,避免系统故障导致业务中断日益重要。

系统稳定性指标MTBF、MTTF、MTTR

彼得.德鲁克 现代管理学之父说过:If you can’t measure it, you can’t improve it.

如果你不能度量它, 你就无法改进它。

要提升系统稳定性,就需要有可以度量系统稳定性指标,我们将系统服务运行状态拆解来看,处于正常态的时间为无故障时间(MTTF),处于异常态的时间为恢复时间(MTTR)。

稳定性运维的本质就是尽可能去压降MTTR,提升MTTF。反映到故障维度来说,就是尽可能零故障或故障时长尽可能的短。
浅谈1.png

稳定性指标说明

  • MTBF(Mean Time Between Failure)平均故障间隔时间
  • MTTR(Mean Time To Repair)平均故障修复时间
  • MTTF (Mean Time To Failure)平均失效前时间

MTTR细分

当发生故障时,故障平均修复时间(MTTR)如何缩短尤为重要。故障平均修复时间(MTTR)可以具体细分如下

故障平均修复时间(MTTR)具体细分
浅谈2.png

  • MTTI(Mean Time To Identify)平均故障发现时间
  • MTTK(Mean Time To Know)平均故障定位时间
  • MTTF(Mean Time To Fix)平均故障解决时间
  • MTTV(Mean Time To Verify)平均故障修复和验证时间
  • MTTR=MTTI+MTTK+MTTF+MTTV

稳定性运维工作思考

从以上稳定性指标,我们可以关联出压降故障平均修复时间的工作方向,比如:

压降MTTI:监控告警、日常巡检、用户反馈响应

压降MTTK:监控分析、日志分析、链路分析、一键诊断

压降MTTF:应急预案、故障隔离、服务限流、容灾切换

压降MTTV:监控验证、日志验证、链路验证、服务验证、诊断验证

0条评论
0 / 1000
1****n
2文章数
0粉丝数
1****n
2 文章 | 0 粉丝
1****n
2文章数
0粉丝数
1****n
2 文章 | 0 粉丝
原创

浅谈稳定性运维建设衡量指标

2024-05-29 09:16:12
93
0

引言

随着企业的业务不断发展,系统架构日益复杂,服务器数量越来越多,对系统的性能和可用性提出更高的要求,作为运维团队,如何保障业务连续性,开展稳定性运维建设,避免系统故障导致业务中断日益重要。

系统稳定性指标MTBF、MTTF、MTTR

彼得.德鲁克 现代管理学之父说过:If you can’t measure it, you can’t improve it.

如果你不能度量它, 你就无法改进它。

要提升系统稳定性,就需要有可以度量系统稳定性指标,我们将系统服务运行状态拆解来看,处于正常态的时间为无故障时间(MTTF),处于异常态的时间为恢复时间(MTTR)。

稳定性运维的本质就是尽可能去压降MTTR,提升MTTF。反映到故障维度来说,就是尽可能零故障或故障时长尽可能的短。
浅谈1.png

稳定性指标说明

  • MTBF(Mean Time Between Failure)平均故障间隔时间
  • MTTR(Mean Time To Repair)平均故障修复时间
  • MTTF (Mean Time To Failure)平均失效前时间

MTTR细分

当发生故障时,故障平均修复时间(MTTR)如何缩短尤为重要。故障平均修复时间(MTTR)可以具体细分如下

故障平均修复时间(MTTR)具体细分
浅谈2.png

  • MTTI(Mean Time To Identify)平均故障发现时间
  • MTTK(Mean Time To Know)平均故障定位时间
  • MTTF(Mean Time To Fix)平均故障解决时间
  • MTTV(Mean Time To Verify)平均故障修复和验证时间
  • MTTR=MTTI+MTTK+MTTF+MTTV

稳定性运维工作思考

从以上稳定性指标,我们可以关联出压降故障平均修复时间的工作方向,比如:

压降MTTI:监控告警、日常巡检、用户反馈响应

压降MTTK:监控分析、日志分析、链路分析、一键诊断

压降MTTF:应急预案、故障隔离、服务限流、容灾切换

压降MTTV:监控验证、日志验证、链路验证、服务验证、诊断验证

文章来自个人专栏
运维建设
2 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
1
1