哥们发来消息,最近使用夜莺阿里云插件对云服务,包括ECS、RDS等进行了监控,但是设置告警的时候没有告警产生。
首先,通过添加一个process_total的本地监控指标设置了一个告警,测试是否可以告警,以此检查alarm功能是正常的。
然后,哥们说看下categraf的配置。一行一行看了下,发现了一个delay指标。这个指标过去还真没有遇到过。
读了几遍官方文档的介绍,说真,理解水平有限,还是无法准确理解。但是,有一点是了解到了。与传统得categraf采集host指标不一样,阿里云插件工作的时候采集到的阿里云资源指标可能不是实时的,而这个地方的2m就是2m。哈哈,
猜测,categraf使用agent拉取阿里云的时候,因为阿里云的监控数据不是实时的,所以会设置delay参数,查询10分钟前的数据。对,如此一来,监控告警失效以及时序指标查询出不来 两个问题就对上了。
然后,哥们重新设置了采集参数,将delay设置成2m,把告警规则频率设置成了300s。
观察中...
观察到了60s一次的数据采集。
监控指标出现了一批。
看来这个delay参数以及告警策略生效参数有点搞头。
删除了测试告警设置。
修改了监控指标,告警恢复了一批。然后就是全部恢复了。
最终,设置delay 2m,采集period 60s,告警规则执行频率60s,持续时长120s。
有时间把老秦的视频再看一遍,进一步学习夜莺工作的原理。