首页

/

【WeOps客户场景】周大福:嘉为蓝鲸监控邮件系统关键指标,提升可用性

发布日期:2023-10-08 15:35:32

分享到

01. 场景简述

采用WeOps的监控能力,结合Exchange专家定制的专用化监控方案,实时监测服务器磁盘、邮件系统关键指标,异常告警,提醒管理员及时处理(支持自动化处理),配置后(近3个月),故障频率从1~2月一次,降到“零”故障。


02. 故事背景

1)邮件系统运维要求

周大福Exchange邮件系统维系着全集团(包括顺德、武汉、香港和深圳等四大区)的协同办公,如分店与分店、分店与后勤的公告、文件、通知等,其重要性不言而喻,集团要求邮件系统可用性不低于99.99%,基本上不允许出现故障。

2)故障现象

今年上半年曾先后发生几起邮件投递失败的重大事故,受影响的用户多达上千人,IT运维团队为此也受到严厉的责罚。

3)故障原因

最终定位到根因为部分Exchange邮件系统服务器由于邮件量的增加,导致磁盘空间不足,触发了系统的反压机制,导致部分邮件无法正常投递,一直停留在队列中。

4)故障困扰

周大福邮件系统服务器数量多达40+台,且后端服务器的磁盘数较多(8-10个盘),尽管每天都在进行例行检查,发现磁盘不足及时扩充,但是扩多了浪费,扩少了很快又满,总是容易出现疏漏。令运维人员头疼的是,公司门店常有促销活动,需要大量带附件的邮件群发,这容易导致服务器的磁盘空间在前后两次巡检之间剧增达上百GB,造成故障,因此,事故接二连三的发生……


03. WeOps应对及效果

1)实时监测Exchange邮件系统所有数据盘的磁盘空间,提前预警

① 对Exchange邮件系统40+台服务器批量安装代理,实时监测磁盘空间的变化情况;

Exchange邮件系统的监控状态

② 新建Exchange邮件系统仪表盘,通过折线图方式展示所有数据盘的磁盘空间使用情况;

邮件系统仪表盘

③ 基于本次故障的经验,对所有数据盘的“磁盘空间使用率” 设定严格的监控策略,并通过短信、邮件、微信等途径通知到相关人员处理。

当磁盘空间超过80%时,触发“预警”级别告警;

当磁盘空间超过85%时,触发“致命”级别告警;

邮件系统监控策略
邮件系统告警策略

④ 除对邮件系统的磁盘使用率、CPU、内存等基础指标监测外,还对邮件队列、重试投递队列、客户端连接数等关键应用指标进行检测,及时感知异常,保障邮件系统稳健运行。

邮件系统告警邮件


2)WeOps实现效果

① WeOps监控告警配置完成后,未再出现邮件投递失败的事故

  • 运维人员每天上/下班,打开Exchange邮件系统仪表盘检查数据盘的磁盘空间情况;
  • 监控到邮件系统异常,则马上触发告警,并发送预警通知;
  • 当接收到预警通知时,运维人员立马登录服务器检查并及时处理(后面可优化为告警——工单——自动化扩容);


04. 场景适用性

该邮件系统监控的场景,适用于绝大部分企业的运维场景。WeOps监控,帮助企业早于业务发现问题,提升核心系统的可用性。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!