一、CCE集群创建失败的原因与解决方法?
概述
本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。
详细信息
集群创建失败的原因包括:
- ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。
- 确认帐号是否欠费:帐号必须是未欠费状态才可以购买资源。
定位失败原因
您也可以参考以下步骤,通过集群日志查看集群创建失败的报错信息,然后根据相应的解决方法解决问题:
步骤 1 登录CCE控制台,单击集群列表上方的“操作记录”查看具体的报错信息。
步骤 2 单击“操作记录”窗口中失败状态的报错信息。
步骤 3 根据上一步获取的失败报错信息自行解决后,尝试重新创建集群。
二、集群的管理规模和控制节点的数量有关系吗?
集群管理规模是指:当前集群支持管理的最大节点数。若选择50节点,表示当前集群最多可管理50个节点。
针对不同的集群规模,控制节点的规格不同,但数量不受管理规模的影响。
集群的多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。
三、当集群状态为“不可用”时,如何排查解决?
当集群状态显示为“不可用”时,请参照如下方式来排查解决。
排查思路
以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。
- 排查项一:安全组是否被修改
- 排查项二:手动检查LB是否有监听器和后端服务器组残留
排查思路
排查项一:安全组是否被修改
步骤 1 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。
控制节点安全组名称为:集群名称-cce- control -编号。
步骤 2 单击安全组名称,进入详情页面,请确保集群控制节点的安全组规则的正确性。
排查项二:手动检查LB是否有监听器和后端服务器组残留
模拟异常状态:
创删负载均衡(LoadBalancer,简称LB)类型service的任务执行时发生集群异常,恢复后会出现service删除成功,但是LB的监听器和后端服务器组残留。
步骤 1 预创建CCE集群,在集群内使用nginx官方镜像创建工作负载、预置lb、各类型service、ingress等资源。
步骤 2 保持集群正常运行,nginx负载处于稳态。
步骤 3 持续间隔每20s创建删除10个lb类型的service。
步骤 4 集群出现注入异常:如etcd实例不可用、集群休眠等问题。
问题原因:
异常注入时正在进行创建或删除过程中的lb-service被删除了,但是elb内有监听器和后端服务器组残留。
解决方案:
可以手动清理残留的监听器和后端服务器组。
步骤 5 登录控制台,单击服务列表中“网络 > 弹性负载均衡 ELB”。
步骤 6 在负载均衡器列表中,单击对应的ELB名称进入详情页,在“监听器”页签下找到残留的监听器,单击后方的删除图标进行删除操作。
步骤 7 在“后端服务器组”页签下找到残留的后端服务器组,单击后方的删除图标进行删除操作。
四、集群删除失败:弹性网卡残留
CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,例如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。
故障现象
删除集群失败。
问题根因
该场景引起的原因是连接集群的kube-apiserver查询集群对接的弹性网卡/弹性辅助网卡失败导致无法删除弹性网卡,CCE创建的用于弹性网卡/弹性辅助网卡的安全组由于弹性网卡残留删除时报错了409,最终导致了集群删除失败。
操作步骤
步骤 1 复制报错信息中的资源ID f5b0282b-6306-4a4b-a64d-bd32e26c3846,进入到vpc服务的安全组界面,根据ID过滤安全组。
步骤 2 单击进入安全组详情界面,选择关联实例页签。
导致安全组残留的原因是关联了弹性网卡实例,辅助弹性网卡实例,单击其他页签,可以看到有残留的弹性网卡,将残留的弹性网卡(辅助弹性网卡会自动删除)删除。
步骤 3 在弹性网卡界面将上一步查询到的网卡删除。
可以用ID过滤需要删除的弹性网卡,也可以通过集群ID的名称过滤需要删除的弹性网卡,如示例中残留的集群ID,在弹性网卡界面通过名称过滤。
步骤 4 清理完成后,到安全组确认clusterName-cce-eni-xxx的安全组已经没有关联的实例了,然后到CCE控制台就能正常删除集群了。
五、CCE集群升级时,升级集群插件失败如何排查解决?
概述
本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。
操作步骤
步骤 1 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。
步骤 2 在升级界面显示失败后,请退出集群升级页面,前往“插件管理”界面查看插件的详细状态。针对异常的插件,单击插件名称查看详情。
步骤 3 在插件运行实例的详情界面,单击“事件”查看异常实例的信息。
步骤 4 根据具体的异常信息进行相应处理,比如尝试删除未启动的实例让其重启等。
步骤 5 处理成功后,插件状态会变为运行中,需要保证所有插件状态都处于运行中。
步骤 6 此时进入集群升级界面,再次单击“重试”按钮即可。
六、使用CCE需要关注哪些配额限制?
云容器引擎CCE配额 只限制了集群个数 ,但是使用CCE时也会使用其他云服务,包括:弹性云服务器、云硬盘、虚拟私有云、弹性负载均衡、容器镜像服务等。
什么是配额?
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。
如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。
怎样查看我的配额?
- 登录管理控制台。
- 单击管理控制台左上角的,选择区域和项目。
- 在页面右上角,单击 “我的配额”。系统进入“服务配额”页面。
我的配额
- 您可以在“服务配额”页面,查看各项资源的总配额、及使用情况。
如果当前配额不能满足业务要求,请单击“申请扩大配额”。
如何申请扩大配额?
- 登录管理控制台。
- 在页面右上角,单击“我的配额”。系统进入“服务配额”页面。
- 单击“申请扩大配额”。
- 在“新建工单”页面提交工单,根据您的需求,填写相关参数。其中,“问题描述”项请填写需要调整的内容和申请原因。
- 填写完毕后,勾选协议并单击“提交”。