摘要
传统DCIM系统通过配置阈值或者条件,监控指标达到阈值或者满足特定条件后自动触发/生成告警。而在设备多、监控范围大的使用场景下,监控系统可能会产生海量告警,常会出现故障期间告警风暴,手机/邮箱会被海量告警淹没,运维人员很难从众多告警中筛选出重要告警,从而容易忽略重要告警,因此,一旦出现告警风暴,告警本身也就失去了意义和价值。鉴于此,研究一套告警收敛技术,在保证所有重要告警成功报出的前提下,尽量减少重复、无意义的告警;自动/手动梳理、推断出告警之间的因果关系,生成知识图谱帮助用户防范告警风暴,让运维人员专注于有效告警。
出处
《中国设备工程》
2025年第23期192-194,共3页
China Plant Engineering
基金
中国国家铁路集团有限公司科研项目专项基金(N2023S011)。