Home

/

【羊城晚报】WeOps运维监控告警改善OA访问慢的问题

Post date:2023-09-12 16:41:44

全部案例

01. 故事背景

IT运维部门平均每月都会接收1-2次内部办公系统访问缓慢的用户反馈或投诉,月月被投诉,IT不胜其烦。经排查,绝大部分时候是由于与某个应用有关的Windows服务器的CPU资源占用奇高,导致系统无法响应用户请求,从而产生“慢”的现象。


02. 问题排查

在羊城晚报,内部办公(OA)系统需要遵循“报业网络安全等保第二级”的要求,对服务器日志进行集中收集和留存。

羊城晚报使用的日志审计系统,采用的时C/S架构,需要在每台服务器上安装一个客户端,该客户端会收集那台服务器产生的日志,并将日志转发到集中日志接收和存储系统。

可能是bug等原因,安装在Windows服务器上的日志收集客户端软件,时不时“发疯”一样抢占CPU资源,导致资源耗尽,响应卡死。该客户端安装在linux服务器上却一切正常。


03. 临时方案

临时的故障解决方法是在Windows服务器上,将该日志收集客户端先停掉,再次启动,故障即可解决。

羊城晚报数次找到日志审计系统的厂家,要求厂家解决此问题,但厂家反馈是自身日志审计系统是基于开源社区的工具进行二开,该问题属于原始工具的问题,他们也无法彻底处理,并且只在Windows服务器上不定时出现,他们暂时不会花精力投入研究,建议客户每次问题出现后,就手动处理,但每次问题出现时,都伴随对IT部门的投诉。

*厂家推测:客户端在向集中日志存储系统传送日志时,如果出现失败(比如网络中断),会再次尝试,这种再次传送行为在Windows系统上,可能触发了一些兼容性问题,导致尝试次数越多,旧的资源不会被释放,同时,不断抢占新资源,最终导致服务器资源“耗尽”。


04. WeOps应对及效果

用WeOps监控告警,先于用户发现该问题,并在用户保障前处理,避免用户投诉。

① 监控所有Windows服务器的资源情况,并设定告警规则,按照“提醒”“预警”“致命”三个层级,发送告警通知给IT管理员,管理员手工处理,与用户投诉抢时间。


② 计划进一步优化到自动化处置(技术上可行,但处置风险和管理要求在评估中),如告警后无人处理,则等待一段时间后,WeOps自动化处置并记录,无需人为干预。

作业编排脚本
重启脚本

WeOps监控告警还帮助羊城晚报加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。

客户感言

「WeOps监控告警不仅帮助了羊城晚报的OA访问慢问题,还加快发现其它生产故障,例如采编系统抽图异常、通讯社稿件无法入库到编辑系统稿件库等,提升核心系统的可用性。」

羊城晚报

相关解决方案

嘉为蓝鲸一体化运维解决方案

嘉为蓝鲸一体化运维解决方案是基于腾讯蓝鲸PaaS架构及实践,实现一套管控体系、一套融合集成PaaS平台、一套低代码与运维开发方法;然后平台之上七个融合联动的模块,包括消费驱动的CMDB、数据驱动的监控告警、敏捷运维流程、编排自动化,门户与可视化、运维数据治理和AIOps,实现企业IT运维一体化、自动化、数据化和智能化的逐步体系化演进。

嘉为蓝鲸一体化监控解决方案

嘉为蓝鲸提供企业统一监控解决方案,实现跨数据中心的海量对象统一监控,通过多样化监控采集手段,实现 IT 对象全视野监测,提供统一告警、统一管理、统一分析和统一展示能力,助力企业一体化监控升级转型。

嘉为蓝鲸日志管理解决方案

嘉为蓝鲸统一日志管理解决方案,基于蓝鲸PaaS平台打造,采用统一的采控管道采集各类日志以及接入外部ES日志数据,基于CMDB以业务维度管理日志,并提供精细化权限管控;适配多种清洗规则将非结构化日志数据清洗成结构化数据,并统一存储,同时提供强大的检索、统计、监控、调用链分析和对外消费功能。

嘉为蓝鲸应用运维自动化解决方案

嘉为蓝鲸应用运维自动化解决方案,通过蓝鲸 PaaS 平台提供的能力,提供给应用管理人员对于企业应用系统全生命周期自动化管理,如:应用配置管理、应用部署管理、应用运维管理、应用性能管理、应用智能运维、业务运营管理等场景建设,从而帮助应用管理人员构建起更为安全、稳定、高效的应用运维支撑体系

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!