按照一般经验,服务中的一个JAVA程序定期需要重启一下,而重启牵扯到redis内部信息以及一台一台重启等步骤。早上6:30睁开眼睛,远程连接公司电脑,开始执行脚本,然后去蹲坑了。

虽然脚本执行完成,状态也差不多,但是某一个重要指标比之前少了2万,而且有一个容器还没有重启完成。将两个没有重启完成的一个重启了,因为不重启这个,它不会工作,在线数显示是0。

到了公司,感觉不对劲,为啥会少了2万呢?向领导说明了原因,定于下午再次进行对问题节点进行重启。并且,知会客户下午3点有维护和优化操作。

在正式更新之前,借助gpt优化了脚本代码,由列表顺序执行变成列表指定编号执行,并且打开人工确认函数,不再使用全自动模式。

果然,操作之后,消失的2万在线连接数回来了。要不然,晚上不知道还会出现啥问题。发现问题,早处理,避免影响范围扩大。

总结。脚本运行一直很正常,已经用了有小半年了,之所以出现这次的问题,大概是因为之前DCOS容器集群宕机后出现了状态同步异常的问题,虽然后来解决了,但是还是有些瑕疵在里面。

2024-07-17T08:39:46.png

2024-07-17T08:41:11.png

最后修改:2024 年 07 月 17 日
如果觉得我的文章对你有用,请随意赞赏