AnyBackup
性能爆表
AnyShare
如何购买
我已是Anyshare 客户
AnyRobot
如何购买
购买 AnyRobot 订阅服务
我已是 AnyRobot 客户
一对一在线咨询
我是 AnyRobot 新客户
一对一在线咨询
AnyDATA

爱数博客

全部 AnyBackup AnyShare AnyRobot AnyDATA AnyFabric

破解运维告警管理“老大难“?AnyRobot智能告警来出招!

2020-12-31 2759 1
数字化进程加速,虚拟化、集群化、云化、微服务化的敏态架构全面支撑数字化业务建设,组织业务系统建设复杂,各个服务之间的调用关系多重依赖。一个服务异常往往引起多重设备和系统故障,组织运营存在潜在的业务风险和安全隐患。
全面数字化时代,传统的监控告警工具和故障处理方式已成为数字化业务系统高效稳定运营的“老大难“。
l 实时告警难:现有监控告警工具迫于系统持续稳定运行的要求,告警通知不及时,导致业务运营缓慢或中断,存在业务宕机风险;
l 海量告警信息处理难:单一告警规则设定下,监控越精准,告警规则设定越多。一旦有告警产生,运维人员就淹没在海量告警信息中,故障处理效率低下;
l 告警故障根源定位难:跨系统应用的监控指标多重依赖,无法快速排查关键告警,难以快速定位故障根源;
l 告警信息管理难:告警规则复杂多变,运维人员很难对告警规则进行快速、灵活管理,并且难以将告警规则快速应用于多种告警场景,造成运维管理成本增加。
<1>实时告警,缩短故障发现时间
基于Flink流处理引擎,AnyRobot实时匹配、搜索、处理每条日志信息。在实时、全量采集日志数据的过程中,对异常状态数据即刻触发告警通知,缩短故障发现时间,缩小异常事件的影响范围,进而降低业务损失。
<2>动态阈值监控告警,减少漏报虚报
传统监控手段,是通过设定固定的监控指标来获取告警通知。一旦指标超过设定的阈值,不论业务运行是否正常,即刻产生告警信息。
AnyRobot内置机器学习算法,可通过对历史数据进行拟合分析,包含业务正常运行时监控指标的高峰波谷区间;并可根据业务运行的阶段性,进行动态阈值区间的更新维护。动态阈值监控告警,能够轻松应对业务的正常波动情况,减少告警信息的漏报、虚报,实现精准告警,快速识别分析异常事件。
动态阈值告警对比
动态阈值与传统阈值告警对比
<3>规则告警,响应复杂多变的场景需求
AnyRobot智能告警支持多个告警规则组合的场景策略,在业务场景复杂多变的监控需求下,可将多个告警规则进行组合,实现精准告警。
在告警场景设定的情况下,多规则告警支持动态修改告警业务规则,精准统计实时数据的聚合信息,更快速地响应业务需求,更准确地定位异常问题。

规则引擎的CEP架构
<4>告警降噪:筛减海量告警信息,聚焦关键事件
IT基础设施云化,应用运行环境容器化,系统架构微服务化……在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警信息产生,不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理困难重重。
1、告警抑制,将同类的、重复的告警信息,设定为在固定时间范围类只触发一次告警通知,避免运维人员淹没在告警风暴中。
2、智能告警合并,根据系统服务、指标、事件严重性,以告警决策树的方法对告警信息进行合并,降低告警事件数量,高效清晰整合告警信息,帮助运维人员聚焦关键告警事件,快速定位分析异常事件,缩短故障解决修复时间,降低运维管理成本。

告警降噪
<5>告警通知多样化,高效获取告警信息
AnyRobot平台支持http、syslog转发,将告警事件转发至第三方告警事件平台,便于运维管理人员使用一个平台即可获取全部告警信息,省去重复登录排查的时间。
AnyRobot支持邮件、微信等方式发送告警通知,运维管理人员可以更高效的过滤告警信息,提升运维管理协作效率,缩短故障排查时间。
<6>可视化溯源分析,快速定位故障根源
AnyRobot智能告警特性支持可视化统计、分析、展现所有告警记录,并提供精准告警信息的详情列表。运维人员可在平台内直接点击,便可定位分析告警根源。
告警分析视图
告警分析视图
AnyRobot智能告警持续破解运维告警管理难题,实现精准智能告警,缩短故障发现时间,提升故障解决效率,降低业务损失风险。

请就本文对您的益处进行评级:

标签

产品功能

相关文章

热门标签

版本发布 在线教学

拨打400

免费销售咨询热线

400 8216055

7*24 小时免费售后服务热线

400 880 1569

购买咨询

购买咨询

售后服务

售后服务

返回顶部

为了给您提供更优质的服务,请您先完善以下信息:
确认提交

扫码关注

爱数技术支持中心公众号