下午4点左右,办公区突然停电,导致服务器也随之下线了。
俺们的测试服务器是4台pc机器,每次停电后,电闸肯定掉。
处理了电的问题,服务器起来后,业务恢复太慢了。
远程ping测试,搞了半天不通,最后发现是151-154,而不是51-54。
起来后,发现kubesphere的node1怎么启动报错,xfs错误。
挂载systemrescue,然后xfs_repair /dev/sda。
注意,这个地方可以不是/dev/sda1。
虽然最后又error报错,但是测试mount /dev/sda1 /mnt可以了。而且可以启动了。
恢复数据后,nginx与kubesphere的服务丢失联系。
搞了半天才找到与kubesphere联系的haproxy的更新脚本。(此处缺少拓扑图,和相关文档)。
起来测试,发现ssl证书过期了。(此处没有监控)
三下五除二,4:30-6:30,2个小时恢复了。得来了一堆教训。