用备份玩死proxmox超融合私有云集群-天翼云

用备份玩死proxmox超融合私有云集群

2023-06-26 08:28:09 阅读次数：371

刚躺下，就收到proxmox虚拟机集群报警的邮件，顺便瞧了一眼，发现问题。

用备份玩死proxmox超融合私有云集群

继续点菜单“监视器”，quorum列的值全部为否。

用备份玩死proxmox超融合私有云集群

再双击错误信息，可看到更详细而有用的信息。

用备份玩死proxmox超融合私有云集群

root@pve10:/var/lib/vz/dump#rm -rf

释放空间，以便ceph相关的服务能向根分区写入日志。其中ceph日志的默认路径为/var/log/ceph ,如果资金预算许可，建议单独用一个物理磁盘来存放ceph日志。即创建一个分区，挂接到目录/var。

删除备份文件以后，磁盘空间得以释放，然后电话询问其它人，这几天有没有人到管理后台去操作，并强烈建议把集群的管理权限收回来（非系统管理的技术人员有所有权限）。

通知完以后，再切换到宿主机系统查看ceph日志，主要是ceph.log及ceph-osd.log，发现输出已经没有报错信息。由此判断，故障已经排除。Proxmox web管理界面，选中某个物理节点，强制启动监视器。

用备份玩死proxmox超融合私有云集群

再点左侧菜单OSD，磁盘都出来了！

用备份玩死proxmox超融合私有云集群

切换到宿主机系统debian，查看osd，也能正常工作了。

root@pve10:/var/log/ceph# ceph osd tree
ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF
-1         34.92139 root default                          
-3        8.73035     host pve10                        
 0     hdd  2.18259         osd.0      up    1.00000 1.00000
 1     hdd  2.18259         osd.1      up    1.00000 1.00000
 2     hdd  2.18259         osd.2      up    1.00000 1.00000
 3     hdd  2.18259         osd.3      up    1.00000 1.00000
-5        8.73035     host pve20                        
 4     hdd  2.18259         osd.4      up    1.00000 1.00000
 5     hdd  2.18259         osd.5      up    1.00000 1.00000
 6     hdd  2.18259         osd.6      up    1.00000 1.00000
 7     hdd  2.18259         osd.7      up    1.00000 1.00000
-7        8.73035     host pve30                        
 8     hdd  2.18259         osd.8      up    1.00000 1.00000
 9     hdd  2.18259         osd.9      up    1.00000 1.00000
10     hdd  2.18259         osd.10     up    1.00000 1.00000
11     hdd  2.18259         osd.11     up    1.00000 1.00000
-9        8.73035     host pve40                        
12     hdd  2.18259         osd.12     up    1.00000 1.00000
13     hdd  2.18259         osd.13     up    1.00000 1.00000
14     hdd  2.18259         osd.14     up    1.00000 1.00000
15     hdd  2.18259         osd.15     up    1.00000 1.00000

root@pve10:/var/log/ceph# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-1 34.92139 root default

-3 8.73035 host pve10

0 hdd 2.18259 osd.0 up 1.00000 1.00000

1 hdd 2.18259 osd.1 up 1.00000 1.00000

2 hdd 2.18259 osd.2 up 1.00000 1.00000

3 hdd 2.18259 osd.3 up 1.00000 1.00000

-5 8.73035 host pve20

4 hdd 2.18259 osd.4 up 1.00000 1.00000

5 hdd 2.18259 osd.5 up 1.00000 1.00000

6 hdd 2.18259 osd.6 up 1.00000 1.00000

7 hdd 2.18259 osd.7 up 1.00000 1.00000

-7 8.73035 host pve30

8 hdd 2.18259 osd.8 up 1.00000 1.00000

9 hdd 2.18259 osd.9 up 1.00000 1.00000

10 hdd 2.18259 osd.10 up 1.00000 1.00000

11 hdd 2.18259 osd.11 up 1.00000 1.00000

-9 8.73035 host pve40

12 hdd 2.18259 osd.12 up 1.00000 1.00000

13 hdd 2.18259 osd.13 up 1.00000 1.00000

14 hdd 2.18259 osd.14 up 1.00000 1.00000

15 hdd 2.18259 osd.15 up 1.00000 1.00000

假如通过删除备份释放空间不能恢复服务，最坏的打算，就是重建集群，从nfs备份中恢复了。这不会丢失数据，因为数据库不在此集群中。

最后，记得把备份目录改成nfs共享村存储，收回系统权限，以绝后患！

用备份玩死proxmox超融合私有云集群

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

用备份玩死proxmox超融合私有云集群

用备份玩死proxmox超融合私有云集群

相关文章

配置集群免密登录

redis-cluster分布式集群安装部署

大数据平台的运维与管理技巧

【图论】【 割边】【C++算法】1192. 查找集群内的关键连接

oracle 11.2.0.4 asm单实例不随系统启动而自动开启

k8s-监控与日志收集

redis主从复制集群环境搭建

执行start-dfs.sh后，datenode没有启动的最全解决办法（全网最全）

【Kubernets】kubenets基础-kubectl常用命令行

云原生学习笔记 - Kubernetes 深入与实战

作者介绍

最新文章

执行start-dfs.sh后，datenode没有启动的最全解决办法（全网最全）

【Kubernets】kubenets基础-kubectl常用命令行

【Kubernets】kubernets整体技术架构

LVS搭建集群实现负载均衡

Centos7环境下pcs创建集群VIP一直STOP怎么办？

【云原生】Kubernetes介绍

热门文章

【Kubernetes】从零搭建K8s集群（三） - 集群安装

kubernetes中master节点和node节点的组件

【Kubernetes】K8s集群中CoreDNS的功能

Elasticsearch集群监控

【Redis技术探索】帮你完全搞定Cluster（集群）架构原理

Elasticsearch笔记(集群插件、kibana、什么是倒排索引)

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

LVS搭建集群实现负载均衡

Elasticsearch集群监控

zookeeper的集群一键启动 和关闭脚本（有图）

【Kubernets】kubernets整体技术架构

K8s系列---【什么是Service？】

IDEA一个项目启动多个实例，以集群启动

【图论】【割边】【C++算法】1192. 查找集群内的关键连接

zookeeper的集群一键启动和关闭脚本（有图）