AOM有哪些使用限制?
操作系统使用限制
AOM支持多个操作系统,在创建主机时您需选择AOM支持的操作系统,详见下表,否则无法使用AOM对主机进行监控。
AOM支持的操作系统及版本
操作系统 版本 SUSE SUSE Enterprise 11 SP4 64bit SUSE Enterprise 12 SP1 64bit SUSE Enterprise 12 SP2 64bit SUSE Enterprise 12 SP3 64bit OpenSUSE 13.2 64bit 42.2 64bit 15.0 64bit(该版本暂不支持syslog日志采集) CentOS 6.3 64bit 6.5 64bit 6.8 64bit 6.9 64bit 6.10 64bit 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit Ubuntu 14.04 server 64bit 16.04 server 64bit 18.04 server 64bit Fedora 24 64bit 25 64bit 29 64bit Debian 7.5.0 32bit 7.5.0 64bit 8.2.0 64bit 8.8.0 64bit 9.0.0 64bit
说明
对于Linux x86_64服务器,AOM支持上表中所有的操作系统及版本。
对于Linux ARM服务器,CentOS操作系统仅支持7.4 及其以上版本,上表所列的其他操作系统对应版本均支持。
资源使用限制
在使用AOM时,您需注意以下使用限制,详见下表。
资源使用限制
分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建50个仪表盘。
1个资源集中最多可创建150个仪表盘。仪表盘中的图表 1个仪表盘中最多可添加20个图表。
1个仪表盘中最多可添加30个图表。仪表盘中图表可选资源、阈值规则、组件或主机的个数
1个曲线图中最多可添加100个资源,且资源可跨集群选择。
1个曲线图中最多可添加12个资源,且资源可跨集群选择。
1个数字图只能添加1个资源。
1个阈值状态图表最多可添加10个阈值规则。
1个主机状态图表最多可添加10个主机。
1个组件状态图表最多可添加10个组件。
指标 指标数据 指标数据在数据库中最多保存30天。 指标总量 单租户总指标量不超过40W
小规格总指标量不超过10W指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度 每个指标的维度最多为20个。
每个指标的维度最多为30个。指标查询接口 单次最大可同时查询20个指标。 统计周期 最大统计周期为1小时。 单次查询返回指标数据 单个指标单次查询最大返回1440个数据点。 自定义指标 无限制。 上报自定义指标 单次请求数据最大不能超过40KB,上报指标所带时间戳不能超前于标准UTC时间10分钟,不接收乱序指标,即有新指标上报后,旧指标上报将会失败。 应用指标
每个主机的容器个数超过1000个时,ICAgent将停止采集该主机应用指标,并发送“ICAgent停止采集应用指标”告警(告警ID:34105)。
每个主机的容器个数缩减到1000个以内时,ICAgent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警。
采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。 日志 单条日志大小 每条日志最大10KB,超出后ICAgent将不会采集该条日志,即该条日志会被丢弃。 日志流量 每个租户在每个Region的日志流量不能超过10MB/s。如果超过10MB/s,则可能导致日志丢失。 日志文件 只支持采集文本类型日志文件,不支持采集其他类型日志文件(例如二进制文件)。 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgent最多采集1000个容器标准输出日志文件,容器标准输出日志只支持json-file类型。 采集日志文件的资源消耗 日志文件采集时消耗的资源和日志量、文件个数及网络带宽、backend服务处理能力等多种因素强相关。 日志丢失 采集器使用多种机制保证日志采集的可靠性,尽可能保证数据不丢失,但在如下场景可能导致日志丢失。
日志文件未使用CCE提供的logPolicy轮转策略。
日志文件轮转速度过快,如1秒轮转一次。
系统安全设置或syslog自身原因导致无法转发日志。
容器运行时间过短,例如小于30s。
单节点总日志产生速度过快,超过了单节点网络发送带宽或日志采集速度,建议单节点总日志产生速度<5M/s。
日志丢弃 当单行日志长度超过10240字节时,此行会被丢弃。 日志重复 当采集器被重启后,重启时间点附近可能会产生一定的数据重复。 告警 告警 您最多可查询最近15天的告警。 事件 您最多可查询最近15天的事件。 - 应用发现规则 应用发现规则最多可创建100个。
服务使用限制
在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。如果对断点有要求,可以在“监控”->“指标浏览”页面中查看指标曲线时,将插值方式设置为0,系统会自动补点,如图所示
插值方式修改
如何区分告警和事件?
告警和事件的相同点
在AOM中告警和事件都是指AOM自身,或ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。
告警和事件的区别
- 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
- 事件是告诉您AOM自身,或ServiceStage、CCE等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。
时间范围和统计周期的关系?
AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示:
最大可查询时间范围=统计周期×1440
当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。
时间范围与统计周期的关系如下表所示,监控关系如下表所示。
时间范围和统计周期关系表
时间范围 统计周期 近1小时 1分钟、5分钟 近6小时 1分钟、5分钟、1小时 近1天 近1周 1小时、1天 说明1天只针对日志统计规则生成的指标。
近15天 1小时、1天 说明1天只针对日志统计规则生成的指标。近30天 近3月 近6月 近9月 近12月
AOM展示的日志是否为实时日志?
AOM展示的日志为近实时日志,日志存在秒级时延。
日志从采集上报到处理需要一定的时间,日志量较小时日志会存在10秒左右的时延,日志量特别大时时延会久些。
日志转储成功后,容器中的原日志会删除吗?
不会删除。
为什么需要创建连接通道?
不同的VPC之间不能进行通信,您需要在数据订阅应用所在VPC中创建应用程序并将其配置为终端节点服务,在DMS所在VPC创建终端节点,终端节点和终端节点服务便能建立连接,实现跨VPC资源通信。