业务使用华为云,牵扯到北京和新加坡节点,而北京也承担了监控系统的重任。最近三天,时常网络中断,导致新加坡云主机上报categraf信息到北京节点失败,告警不断。昨天整理了相关信息,今天提了华为云工单。
2024-07-24T09:19:05.png

对方也有排查流程,主要是

mtr x.x.x.x --report

拿到信息后,对方排查了几个回合,定位到当前北京和新加坡节点均有EIP流量超量告警。

果不其然,也没有收到过邮件告警,但是确实是有。

2024-07-24T08:02:17.png

处理了一下过多的流量之后,近一个小时已经没有了告警。但是问题依旧存在。

2024-07-24T08:02:49.png

于是,再次反馈工单。并且,尝试使用一些拨测平台进行测试,发现全球访问均正常,只是部分地址访问异常。
2024-07-24T08:03:26.png
2024-07-24T08:03:29.png

提交两张图片之后,怀疑是华为云或者其他机构在网络中的安全设备影响。对方再次核查中。

简单梳理一下,在流量超量之后,会造成网络访问丢包、卡顿,但是不会是中断,比如如下情况:
2024-07-24T08:04:42.png

当天晚上,接到华为云的电话,大概分析了一下,对方也承认可能并不是因为超限造成,而且也联系了运营商进行优化。但是,问题依旧。考虑到晚上了,等明天再说吧。

第二天,对方说观测到还是有丢包。索性直接将流量带宽提升到100Mbps,这下没有丢包了。对方也不再说什么,继续排查。

与此同时,通过traceroute进行正反测试,包括正常情况与异常情况。

补充材料,从bj ping sg的190.92.221.0/24,.25是不通的,但是24和26是通的。
2024-07-25T08:53:36.png
2024-07-25T08:53:39.png

目前看,sg到bj 走的是联通骨干,但是到联通海淀可能有问题;bj到sg走的是电信,福建电信到电信骨干没问题,但是出海就有问题了。详情见如下四图。
2024-07-25T08:53:54.png
2024-07-25T08:53:58.png
2024-07-25T08:54:03.png
2024-07-25T08:54:06.png

稍后,对方又说已经联系了运营商进行了调整。可是,问题依旧。
2024-07-25T08:54:41.png
2024-07-25T08:54:37.png

17:00左右,云计算那边应该是被工单搞的不行了,毕竟24小时没有解决。对方打来电话,说了一下进展,对方将该IP地址出口从国际链路与电信链路之间进行切换,都是好一会儿然后就异常,还是无法正常使用。无奈,只能将问题归咎于国墙了。

然后就是扫尾工作。
(1)从华为云上购买一枚新的EIP地址,解绑老地址,绑定新地址。收到告警,新加坡主机监控上线。
(2)打开阿里云,针对每个域名搜索190地址,将解析改成新地址。
(3)修改监控系统nagios,通过sed批量修改成新地址并重启。
(4)修改堡垒机中关于该服务器的地址。

检查:

(1)nagios监控正常。
(2)夜莺监控中该主机监控数据恢复正常。

事毕。

不出意外还是出意外了。没有经过检验的结果是靠不住的。过了一小会儿,问题又出现了。
经过之前的反复排查,大胆的做了一个测试,将北京云主机的服务端口17000挂到了该区域的ELB上面,没想到通了,而且状态稳定。
2024-07-26T00:50:36.png

另外,也做了一个从新加坡云主机到UCloud云ULB的长ping,没想到一晚上一个丢包也没有。

2024-07-26T00:50:10.png

而从华为云新加坡到华为云北京四的ecs的eip,确实不通,或者时断时续。

26号一大早,提了工单,可是测试sg到ecs的eip居然没有问题了?搞的工单里面赶紧跟人说目前良好,无法复现。稍后,华为云电话也打来了,希望可以开会讨论。可是,我说目前现象已不能复现,等等再看吧。于是,关闭了工单。

就这样,过了一会儿之后,看着绿色的连通性能,心中在想到底是咋回事儿呢?
2024-07-26T02:53:48.png

于是,分别在sg和bj的ecs里面进行路由追踪,看下图:
2024-07-26T02:54:15.png
2024-07-26T02:54:18.png
2024-07-26T02:54:21.png

居然改到联通了!!!

之前,sg到bj之间走的是电信线路,现在走的是联通线路。

最后修改:2024 年 07 月 26 日
如果觉得我的文章对你有用,请随意赞赏