Home

/

【羊城晚报】WeOps运维监控告警改善OA访问慢的问题

Post date:2023-09-12 16:41:44

全部案例

01. 故事背景

IT运维部门平均每月都会接收1-2次内部办公系统访问缓慢的用户反馈或投诉,月月被投诉,IT不胜其烦。经排查,绝大部分时候是由于与某个应用有关的Windows服务器的CPU资源占用奇高,导致系统无法响应用户请求,从而产生“慢”的现象。


02. 问题排查

在羊城晚报,内部办公(OA)系统需要遵循“报业网络安全等保第二级”的要求,对服务器日志进行集中收集和留存。

羊城晚报使用的日志审计系统,采用的时C/S架构,需要在每台服务器上安装一个客户端,该客户端会收集那台服务器产生的日志,并将日志转发到集中日志接收和存储系统。

可能是bug等原因,安装在Windows服务器上的日志收集客户端软件,时不时“发疯”一样抢占CPU资源,导致资源耗尽,响应卡死。该客户端安装在linux服务器上却一切正常。


03. 临时方案

临时的故障解决方法是在Windows服务器上,将该日志收集客户端先停掉,再次启动,故障即可解决。

羊城晚报数次找到日志审计系统的厂家,要求厂家解决此问题,但厂家反馈是自身日志审计系统是基于开源社区的工具进行二开,该问题属于原始工具的问题,他们也无法彻底处理,并且只在Windows服务器上不定时出现,他们暂时不会花精力投入研究,建议客户每次问题出现后,就手动处理,但每次问题出现时,都伴随对IT部门的投诉。

*厂家推测:客户端在向集中日志存储系统传送日志时,如果出现失败(比如网络中断),会再次尝试,这种再次传送行为在Windows系统上,可能触发了一些兼容性问题,导致尝试次数越多,旧的资源不会被释放,同时,不断抢占新资源,最终导致服务器资源“耗尽”。


04. WeOps应对及效果

用WeOps监控告警,先于用户发现该问题,并在用户保障前处理,避免用户投诉。

① 监控所有Windows服务器的资源情况,并设定告警规则,按照“提醒”“预警”“致命”三个层级,发送告警通知给IT管理员,管理员手工处理,与用户投诉抢时间。


② 计划进一步优化到自动化处置(技术上可行,但处置风险和管理要求在评估中),如告警后无人处理,则等待一段时间后,WeOps自动化处置并记录,无需人为干预。

作业编排脚本
重启脚本

WeOps监控告警还帮助羊城晚报加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。

客户感言

「WeOps监控告警不仅帮助了羊城晚报的OA访问慢问题,还加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。」

羊城晚报

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!