场景一:定位应用性能瓶颈与故障异常
场景说明
随着业务不断发展,业务逻辑日益复杂,导致应用性能问题分析与定位日益艰难,给监控运维带来了巨大的挑战: 应用之间的依赖关系复杂,难以梳理。 调用链路长,排查和定位群体困难。 接口调用、数据库调用关系复杂,管理难度大。APM提供了大型分布式应用的异常诊断能力,当应用出现请求失败或性能下降时,通过应用拓扑、调用链、性能指标监控等能力组合,可以帮助用户快速定位问题。
业务价值
- 应用拓扑展示:自动梳理业务应用,以拓扑图的方式全面展示相关应用调用关系。
- 丰富的指标监控:提供包括JVM、资源监控、Netty内存等基础监控;Kafka、RocketMQ等消息监控;Mysql,redis,es等数据库监控;httpClient、grpc等调用监控。
- 慢SQL分析:通过自定义的慢查询阈值、结合SQL的调用频次,获取导致数据库性能下降的不规范的SQL语句。
- 告警:针对接口响应时间、异常调用、数据库、JVM等性能指标做一定阈值的告警,先于客户之前发现并解决问题。
场景二:容器运维监控
场景说明
众所周知,Prometheus 是容器场景的最佳监控工具,但自建 Prometheus 对运维人力有限的中小企业成本过高,对业务快速发展的企业又易出现性能瓶颈。因此使用云托管 Prometheus 已成为越来越多上云企业的首选。
业务价值
天翼云应用性能监控-Prometheus监控已全面对接开源Prometheus生态,将容器服务Kubernetes集群接入天翼云Prometheus监控,通过开箱即用的大盘监控主机和Kubernetes集群的众多性能指标。
- 低成本接入:提供全托管式服务,无需另购基础设施资源,可降低监控成本与维护成本。
- 开箱即用:支持一键接入天翼云云容器引擎。提供丰富的仪表大盘与告警模板,帮助业务快速发现和定位问题。
- 数据规模无上限:基于云上存储能力,数据存储不再受限于本地容量。通过分布式存储可进一步保障数据可靠性。