资源运行异常怎么办?
资源状态包括正常、亚健康、异常和通道静默。亚健康、异常或通道静默都可能导致资源运行异常,您可参考如下指导进行分析和修复。
亚健康
当有级别为次要或提示的告警时资源状态为亚健康。
修复建议:请在告警界面参考告警详细信息处理告警。
异常
当有级别为紧急或重要的告警时资源状态为异常。
修复建议:请在告警界面参考告警详细信息处理告警。
通道静默
当ICAgent无法采集资源的指标时资源状态为通道静默,通道静默可能由于但不限于以下原因导致。
- 可能原因一:ICAgent问题
修复建议:在左侧导航栏中选择“配置管理 > Agent管理”,在列表的“ICAgent状态”列查看ICAgent状态,若状态不为“运行”,则说明ICAgent未安装或运行异常,可参考下表进行处理。
ICAgent修复建议
状态 | 修复建议 |
---|---|
未安装 | 主机未安装ICAgent,请安装 ICAgent ,操作详见。 |
安装中 | 正在为主机安装ICAgent,安装ICAgent预计需要1分钟左右,请耐心等待。 |
安装失败 | 主机ICAgent安装失败,请后重新安装。 |
升级中 | 正在为主机升级ICAgent,升级ICAgent预计需要1分钟左右,请耐心等待。 |
升级失败 | 主机ICAgent升级失败,请后重新安装。 |
离线 | 输入的AK/SK错误或ECS委托设置错误导致主机ICAgent功能异常,请获取正确的AK/SK或正确设置ECS委托。 |
异常 | 主机ICAgent功能异常,请提交工单处理,操作详见。 |
- 可能原因二:AOM不支持监控当前资源类型
修复建议:请检查您的资源是否为AOM监控的类型,AOM当前支持监控的资源类型有:主机、K8s容器、用户进程(AOM不监控主机的系统进程)。
如何设置全屏模式在线时长?
为保障客户信息的安全性,AOM提供了在线超时退出机制,即:登录控制台后,打开任意一个界面,如果在1小时内无任何操作,则会自动退出到登录界面。
当在使用AOM的全屏模式进行监控时,全屏模式会随着用户帐号的退出而退出,无法实时进行监控。为满足您的多样化需求,AOM支持您自定义全屏模式在线时长。
注意事项
- 为提高安全性,请在不需要使用全屏模式进行监控时,及时退出全屏模式。
- 全屏模式在线时长与是否操作无关,只要满足已设时长,则退出到登录界面。
- 全屏模式在线时长以最后一次设置为准。
例如,打开了多个页签在多个显示屏下进行全屏监控,则在线时长以最后一次设置为准。
再如,在“运维概览”界面和“仪表盘”界面均设置了在线时长,则以最后一次设置为准。
- 全屏模式在线时长优先级高于系统在线超时退出机制。
例如,登录控制台后,打开了AOM全屏界面并设置在线时长为2小时,同时打开了AOM全屏界面外的其他任意界面,则对于其他任意界面该设置也同时生效,即2小时后自动退出到登录界面。
- 当所有全屏界面都退出后,则恢复系统在线超时退出机制。
例如,登录控制台后,打开了多个AOM全屏界面并设置在线时长为2小时,同时打开了AOM全屏界面外的其他任意界面,当退出所有AOM全屏界面后,对于任意界面,在1小时内无任何操作,会自动退出到登录界面。
设置仪表盘全屏模式在线时长
步骤 1 登录AOM控制台,在左侧导航栏中选择“总览 > 仪表盘”。
步骤 2 单击“仪表盘”界面右上角的 ,在弹出的对话框中设置全屏模式在线时长。
- 自定义在线时长:默认在线时长为1小时,您可在文本框中输入1~24小时。
例如,在文本框中输入2,则2小时后自动退出到登录界面。
- 保持在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。
步骤 3 单击“确认”,进入仪表盘全屏模式。
如何获取AK/SK?
每个用户最多可创建2个访问密钥(AK/SK),且一旦生成永久有效。
- AK(Access Key ID):访问密钥ID,是与私有访问密钥关联的唯一标识符。访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。
- SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
操作步骤
1、登录控制台,将鼠标移动到右上方的用户名称,并在下拉列表中选择“我的凭证”。
2、在“我的凭证”页面中选择“访问密钥”页签。
3、在列表上方单击“新增访问密钥”,输入验证码或密码。
4、单击“确定”,生成并下载AK/SK。
创建访问密钥成功后,您可以在访问密钥列表中查看访问密钥ID(AK),在下载的.csv文件中查看秘密访问密钥(SK)。
- 请及时下载保存,弹窗关闭后将无法再次获取该密钥信息,但您可重新创建新的密钥。
- 当您下载访问密钥后,可以在浏览器页面左下角打开格式为.csv的访问密钥文件,或在浏览器“下载内容”中打开。
- 为了帐号安全性,建议您妥善保管并定期修改访问密钥,修改访问密钥的方法为删除旧访问密钥,然后重新生成。
如何查询服务不可用时间?
您可以进入AOM的容器监控页面,在工作负载的监控视图里查看服务在各个时间的状态值,0代表正常,非0代表异常。
AOM告警规则状态为什么显示“数据不足”?
AOM告警规则中,资源项有时会出现数据不足的情况,如下图所示。
可能的原因如下:
1、数据上报延迟过大(曲线图最新数据上报时间和当前时间的时间差大于一个周期,阈值上报周期设定中可选1分钟和5分钟),上报周期内获取不到数据会报数据不足。
2、指标删除或指标所在的宿主已不存在,而阈值规则仍在,此时会报数据不足。
正常状态的工作负载,AOM界面显示异常是什么原因?
在AOM页面看到工作负载的状态显示异常,但是实际上在CCE页面看工作负载是正常的。
查看工作负载状态
可能的原因如下:
1、ICAgent的版本过低。
ICAgent当前需要用户主动升级的,但是过旧的ICAgent版本可能存在状态上报延迟导致显示异常的问题。
遇到工作负载状态显示不对的情况,首先在Agent管理页面查看ICAgent的版本是不是最新的。
查看ICAgent的版本
2、节点的时间与实际不同步。
如果节点时间与实际时间相差过大,会导致ICAgent指标上报延迟,从而导致状态判断出现问题。
遇到工作负载状态显示不对的问题,需要排查节点的时间与当前时间相比是否过快或过慢,也可以通过在AOM页面查看NTP指标的偏移进行确认。
如何创建委托apm_admin_trust?
创建委托
步骤 1 登录统一身份认证控制台。
步骤 2 在左侧导航栏,单击“委托”,进入委托页面。
步骤 3 单击右上角“创建委托”,进入创建委托页面。
步骤 4 参考下表设置创建委托的参数。
创建委托
名称 | 说明 | 样例 |
---|---|---|
委托名称 | 标识该委托代理的名称。说明委托名称必须为apm_admin_trust。 | apm_admin_trust |
委托类型 | 选择“普通帐号”。 | 普通帐号 |
委托帐号 | 请输入被委托的帐号名称**。** | - |
持续时间 | 选择“永久” | 永久 |
描述 | 可选参数,用于补充说明该委托代理的详细信息。 | - |
步骤 5 在“权限选择”区域,单击“配置权限”。
步骤 6 配置以下权限: DMS User(或DMS UserAccess)、CCE Administrator、 CCI Administrator、ECS User(或ECS CommonOperations),并在“项目[所属区域]”选定生效区域。
步骤 7 单击“确定”,委托关系创建成功。
如何处理界面“ICAgent状态”为“离线”的问题
ICAgent安装完成后,界面“ICAgent状态”为“离线”。
界面“ICAgent状态”为“离线”
问题分析
- 原因:AK/SK配置不正确或30200、30201端口未连通。
- 影响:ICAgent无法正常使用。
解决办法
步骤 1 以root用户登录安装ICAgent的服务器。
步骤 2 执行以下命令,检查AK/SK配置是否正确。
cat /var/ICAgent/oss.icAgent.trace | grep proxyworkflow.go
- 若无回显信息,则说明AK/SK配置错误 => 执行步骤3
- 若有回显信息,则说明AK/SK配置正确 => 执行步骤4
步骤 3 配置AK/SK后,重新安装ICAgent。如果仍未安装成功,请执行步骤4。
步骤 4 查询端口连通性。
1、执行以下命令,获取ACCESS的IP地址。
cat /opt/oss/servicemgr/ICAgent/envs/ICProbeAgent.properties | grep ACCESS_IP
2、依次执行以下命令,检查30200、30201端口的连通性。
curl -k https://ACCESS_IP:30200 curl -k https://ACCESS_IP:30201
若回显信息为“404”,则说明端口连通性正常 => 请联系技术支持工程师。
若回显信息不为“404”,则说明端口未连通 => 请联系网络管理开放端口后,重新安装ICAgent。如果仍未安装成功,请联系技术支持工程师。