下午4点左右,办公区突然停电,导致服务器也随之下线了。
俺们的测试服务器是4台pc机器,每次停电后,电闸肯定掉。

处理了电的问题,服务器起来后,业务恢复太慢了。

远程ping测试,搞了半天不通,最后发现是151-154,而不是51-54。
起来后,发现kubesphere的node1怎么启动报错,xfs错误。
2023-12-27T10:14:31.png
挂载systemrescue,然后xfs_repair /dev/sda。
注意,这个地方可以不是/dev/sda1。
2023-12-27T10:14:44.png
2023-12-27T10:14:50.png
虽然最后又error报错,但是测试mount /dev/sda1 /mnt可以了。而且可以启动了。

恢复数据后,nginx与kubesphere的服务丢失联系。
搞了半天才找到与kubesphere联系的haproxy的更新脚本。(此处缺少拓扑图,和相关文档)。
起来测试,发现ssl证书过期了。(此处没有监控)

三下五除二,4:30-6:30,2个小时恢复了。得来了一堆教训。

最后修改:2024 年 05 月 11 日
如果觉得我的文章对你有用,请随意赞赏