业务部署或运行过程中,用户可能会触发不同层面的高危操作,导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险,本节将从集群/节点、网络与负载均衡、日志、云硬盘多个维度出发,为用户展示哪些高危操作会导致怎样的后果,以及为用户提供相应的误操作解决方案。
集群/节点
表 集群及节点高危操作
分类 | 高危操作 | 导致后果 | 误操作后解决方案 |
---|---|---|---|
Master节点 | 修改集群内节点安全组 | 可能导致master节点无法使用说明命名规则:集群名称-cce-control-随机数 | 参照购买CCE集群的安全组进行修复,放通安全组。 |
节点到期或被销毁 | 该master节点不可用 | 不可恢复。 | |
重装操作系统 | master组件被删除 | 不可恢复。 | |
自行升级master或者etcd组件版本 | 可能导致集群无法使用 | 回退到原始版本。 | |
删除或格式化节点/etc/kubernetes等核心目录数据 | 该master节点不可用 | 不可恢复。 | |
更改节点IP | 该master节点不可用 | 改回原IP。 | |
自行修改核心组件(etcd、kube-apiserver、docker等)参数 | 可能导致master节点不可用 | 按照推荐配置参数恢复,详情请参见配置管理 | |
自行更换master或etcd证书 | 可能导致集群不可用 | 不可恢复。 | |
Node节点 | 修改集群内节点安全组 | 可能导致节点无法使用说明命名规则:集群名称-cce-node-随机数 | 参照购买CCE集群的安全组进行修复,放通安全组。 |
节点被删除 | 该节点不可用 | 不可恢复。 | |
重装操作系统 | 节点组件被删除,节点不可用 | 重置节点,具体请参见重置节点 | |
升级节点内核 | 可能导致节点无法使用或网络异常说明节点运行依赖系统内核版本,如非必要, 请不要使用yum update更新或重装节点的操作系统内核 (使用原镜像或其它镜像重装均属高危操作) |
重置节点,具体请参见重置节点 | |
更改节点IP | 节点不可用 | 改回原IP。 | |
自行修改核心组件(kubelet、kube-proxy等)参数 | 可能导致节点不可用、修改安全相关配置导致组件不安全等 | 按照推荐配置参数恢复,详情请参见配置管理。 | |
修改操作系统配置 | 可能导致节点不可用 | 尝试还原配置项或重置节点,具体请参见重置节点。 | |
删除或修改/opt/cloud/cce、/var/paas目录,删除数据盘 | 节点不可用 | 重置节点,具体请参见重置节点。 | |
修改节点内目录权限、容器目录权限等 | 权限异常 | 不建议修改,请自行恢复。 | |
对节点进行磁盘格式化或分区,包括系统盘、docker盘和kubelet盘 | 可能导致节点不可用 | 重置节点,具体请参见重置节点。 | |
在节点上安装自己的其他软件 | 导致安装在节点上的Kubernetes组件异常,节点状态变成不可用,无法部署工作负载到此节点 | 卸载已安装软件,尝试恢复或重置节点,具体请参见重置节点。 | |
修改NetworkManager的配置 | 节点不可用 | 重置节点,具体请参见重置节点。 | |
删除节点上的cfe-pause等系统镜像 | 导致无法正常创建容器,且无法拉取系统镜像 | 请从其他正常节点拷贝该镜像恢复 |
网络与负载均衡
表 网络与负载均衡
高危操作 | 导致后果 | 误操作后解决方案 |
---|---|---|
修改内核参数net.ipv4.ip_forward=0 | 网络不通 | 修改内核参数为net.ipv4.ip_forward=1 |
修改内核参数net.ipv4.tcp_tw_recycle=1 | 导致nat异常 | 修改内核参数net.ipv4.tcp_tw_recycle=0 |
修改内核参数net.ipv4.tcp_tw_reuse=1 | 导致网络异常 | 修改内核参数net.ipv4.tcp_tw_reuse=0 |
节点安全组配置未放通容器CIDR的53端口udp | 集群内DNS无法正常工作 | 参照购买CCE集群的安全组进行修复,放通安全组。 |
通过ELB的控制台在CCE管理的ELB创建自定义的监听器 | 所做修改被CCE侧重置或Ingress故障 | 通过service的yaml来自动创建监听器。 |
通过ELB的控制台在CCE管理的ELB绑定自定义的后端 | 禁止手动绑定后端。 | |
通过ELB的控制台修改CCE管理的ELB的证书 | 通过ingress的yaml来自动管理证书。 | |
通过ELB的控制台修改CCE管理的ELB监听器名称 | 禁止修改CCE管理的ELB监听器名称。 | |
通过ELB的控制台修改CCE管理的ELB实例、监听器、转发策略的描述 | 禁止修改CCE管理的ELB实例、监听器、转发策略的描述。 | |
删除default-network的network-attachment-definitions的crd资源 | 容器网络不通,集群删除失败等 | 误删除该资源需要使用正确的配置创建default-network资源。 |
日志
表 日志
高危操作 | 导致后果 | 误操作后解决方案 |
---|---|---|
删除宿主机/tmp/ccs-log-collector/pos目录 | 日志重复采集 | 无 |
删除宿主机/tmp/ccs-log-collector/buffer目录 | 日志丢失 | 无 |
云硬盘
表 云硬盘
高危操作 | 导致后果 | 误操作后解决方案 | 备注 |
---|---|---|---|
控制台手动解挂EBS | Pod写入报io error | 删掉node上mount目录,重新调度Pod | Pod里面的文件记录了文件的采集位置 |
节点上umount磁盘挂载路径 | Pod写入本地磁盘 | 重新mount对应目录到Pod中 | Buffer里面是待消费的日志缓存文件 |
节点上直接操作EVS | Pod写入本地磁盘 | 无 | 无 |