监控和告警通常是AIOps中首先需要解决的问题,当前的告警机制大多基于单一指标的分布和阈值来判定,误报率非常高,而且在时效上具有一定的延迟性。如何解决这个 问题?大家采用什么方法
收起 我个人认为误报率高和时效性延迟是同一个问题,都属于报警监控指标过于单一化,监控指标粒度不够细,阈值设定过于静态化等问题。误报是由于阈值设定固定导致实际没有问题而发生了报警,时效延迟的问题属于应该监控的指标没有监控,该指标不正常导致发生问题后不能及时报警,与其关联到的其他监控指标受该指标影响在后续时间发生超阈值而报警,此时报警感觉时效滞后,实际是有的指标没得到有效监控导致的。
因此,我个人认为解决这些问题可以考虑以下几个方面:1.监控指标需要更细粒度化。2.监控阈值需要动态化。3.加入算法实现多指标的动态监控策略。