首页

/

【人保科技】自动化运维场景在数据中心的落地之网络策略自动化管理

发布日期:2022-11-25 18:16:23

全部案例

中国人民保险集团股份有限公司南中心是中国人保集团的生产中心,目前在建的还有北中心和北方同城中心。基础运维保障是南中心数据中心的核心能力,通过组织、人员、制度、流程和工具层面的完善和调优,包括引入GB/T 33136和Uptime M&O运维管理体系以体系化的方式进行管理。在此基础上,南中心还纵向拓展了网络运维、设备运维、安全运维以及灾备运维等能力,之后将横向拓展到北中心和北方同城中心。

随着管理的进一步深入,新的运维提升要求不断地涌现,比如:云运维、AIOps、DevOps等,对于南中心而言,如何实现工具层面的统一运维是提升运维效率的关键;如何利用好平台化运维提升运维管理的深度和广度是体现其运维价值的关键。


01. 搭建统一运维管理平台

2020年,根据集团科技蓝图的相关规划安排,为提升数据中心南中心机房精细化和智能化管理水平,南中心携手嘉为蓝鲸,打造“机房统一运维中台+机房运维服务场景+数据报表及展示”的统一运维管理平台。

基于蓝鲸PaaS平台底座,构建一级原生工具五大域,含配置管理域、监控与故障处理域、运维自动化域、ITSM运维流程自动化域、运维大数据域。同时,在此基础上构建了二级专用SaaS:网络管理域。在最上层构建统一信息展示窗口,以实现业务综合信息、业务监控数据、统一报表数据、网络性能数据、数据中心架构的可视化。

通过统一运维管理平台,纳管南中心机房资源,建设机房可视化、运维流程及告警体系、统一CMDB数据及网络自动化管理,逐步构建自主可控、高效敏捷的研运体系与组织架构。


02. 建设网络自动化管理SaaS

依托统一运维管理平台,南中心建设了网络自动化管理SaaS,作为集团统一网管平台的监控手段及工具的补充,整合纳管过往建设的网管系统,如传统监控、Zabbix监控、SDN监控等;在此基础上,构建专有的管理工具,如配置管理工具、自动化工具、集中监控工具等,夯实平台的服务能力。

通过网络自动化管理SaaS,实现对多种告警源的数据对接;基于配置发现工具及自动化工具,可以生成不同的防火墙脚本及交换机配置。同时,对集中监控做了优化,实现集中展示及告警分析。


03. 构建防火墙自动化运维场景

随着南北中心的整合及集团体制化改革的进程,南中心网络团队接手了防火墙的运维工作,在团队人员不变的情况下,需要额外运维接近50台防火墙,梳理超4万条策略。任务重,要求高,给网络团队带来极大的挑战。因此,提高工作效率成了重中之重

在统一运维管理平台落地过程中,南中心已经构建了一系列基础运维的能力,如ITSM、CMDB,并能够把需求回写到数据库中,实现需求可统计、可跟踪、可回溯。网络运维SaaS依托上述基础能力,建设了5大自动化能力,工作效率得到大幅提高:

  • 自动校验输入需求
  • 自动生成变更方案(脚本生成)
  • 自动执行变更方案(经审批的脚本)
  • 自动保存配置信息(应实现的配置)
  • 自动验证执行结果

同时,通过标准化、自动化、可视化、智能化的4大举措为用户提供优质高效的运维服务。

1)标准化

自动化的前提是标准化,需要统一思想,规范流程。网络团队在制定统一的策略规则后,对外开启统一的服务接口,对内加强内部运维团队意识培训。


2)自动化

① 历经三次迭代,最终实现自动生成变更。

第一次迭代:不依托平台,仅通过Excel及宏执行生成,人工清洗;缺乏回溯性,无法记录和统计;

第二次迭代:基于蓝鲸平台,将生成规则写到平台上,与ITSM相结合,可以生成对应工单、形成对应代码;没有与CMDB相联动,无法对CMDB数据做校验;

第三次迭代:结合CMDB数据,对用户输入的需求进行清洗,同时匹配到不同的产品及型号,如华为、飞塔、华三、山石的防火墙。


② 自动执行变更

用户提交服务请求后,通过SaaS生成脚本,返回到堡垒机。其中涉及到SaaS与ITSM的联动、ITSM与堡垒机不同系统间的对接,该功能还在加快推进,预计年内实现全自动的下发工作。


③ 自动保存配置信息

第一次迭代:将ITSM的数据写进工具,同时读出设备的配置数据,回写到CMDB,将ITSM审批过的数据写进CMDB;

第二次迭代:操作人员存在刷错脚本的情况,后续很难发现脚本的修改,且成本很高;在第二次迭代时,推进CMDB的AB库建设,在审批完后,将审批过的数据写到CMDB的一个库里面,在下一步自动化执行结果校验的时候,对CMDB的数据进行AB库的校验。


④ 将设备的配置信息与工单数据做比对

第一次迭代:已录入半份ITSM数据,如有哪些工单、哪些防火墙策略需要修改,但无法知道修改成什么样;因此,通过读取防火墙信息,把两边的信息结合,形成一条防火墙记录,该过程存在校验问题;

第二次迭代:将工单录入数据录入B库,自动采集数据至A库,AB库进行比对校验,针对不同的校验结果做分析,提高运维准确率。


3)可视化

通过提高效率,网络团队得以腾出手来,基于工单数据分析准确率及服务效率,同时可以审查是否存在垃圾、冗余的策略,提升设备的运行性能。

服务分析:分别以防火墙维度、公司维度展示防火墙策略、工单数据;

工单分析:按不同维度,通过一段时间内完成的工单数量统计工作效率;在工单中可以查询防火墙策略明细以及各类信息,同时可以查询服务请求与对应的变更关系,使得工作更加一目了然;

策略分析:基于CMDB的静态数据,分析防火墙的新增策略及可合并策略,以及各防火墙策略数变化趋势;基于运行过程中产生的命中率的动态数据,如策略命中情况、命中趋势,分析策略是否合理及其变化情况。


04. 经验分享

① 选用高频、重复度高、有痛点的场景
高频、重复度高的场景,能够支撑运维团队快速多次迭代;痛点代表有价值,克服痛点,SaaS才有价值所在;

② 标准化
SaaS设计之初是建立标准化的过程;

③ 做好增量,管住存量(适用于改造场景)
增量可能会线性爆炸发生,甚至非线性发展,做好SaaS就可以管好增量,然后再逐步去做存量策略及场景的优化,SaaS就有了生命力;

④ 小步快跑,快速迭代
SaaS要能不断推出功能,满足业务侧的需求,才能得到肯定与支持;

⑤ 横向扩展,纵向深挖
横向将已有能力拓展到其他数据中心或区域,纵向深挖某一场景的需求;

⑥ 自有团队,持续保障
在SaaS开发过程中,需要有自主团队来保障知识产权持续发展,同时,保障迭代持续进行。


客户感言

「随着南北中心的整合及集团体制化改革的进程,南中心网络团队接手了防火墙的运维工作,在团队人员不变的情况下,需要额外运维接近50台防火墙,梳理超4万条策略。任务重,要求高,给网络团队带来极大的挑战。因此,提高工作效率成了重中之重。」

人保科技

客户成功故事

【华夏银行】iDo平台一体化运维的落地过程

随着数字化转型的深入,基于中台和PaaS架构的一体化运维建设也在各行各业快速展开,但是如何将运维平台本身的能力与企业已有的工具能力进行中台化整合、工具场景如何联动,是个复杂而庞大的工程......

【零束科技】DevOps研发数字化体系建设实践

零束科技定位于平台型科技公司,作为“数据决定体验,软件定义汽车”的践行者,智能车联云平台需要支持百万车辆接入,同时支持大量数据管理调度,这对云平台的性能、稳定及安全性提出了极高要求。为进一步缩短云端研发迭代周期、提升软件产品交付质量及开发效率、提高信息技术对车端业务需求的响应速度,零束科技与嘉为蓝鲸合作,打造DevOps研运一体化平台,提升持续集成、持续交付、持续部署能力,有效提升研发效能。

【周大福】WeOps助力周大福开启IT运维数字化转型之路

创立于1929年的周大福,是全球著名的珠宝集团,零售网络遍及中国、日本、韩国、东南亚与美国。嘉为蓝鲸WeOps平台上线后,除了主机监控,监控范围增加了操作系统、数据库、中间件、虚拟化、云平台、基础应用等维度,运维人员可以主动针对影响业务的关键指标设置发现和解决问题的流程。

科技赋能财富之路如何大步迈进?——中金财富研发转型升级之道

数字经济的蓬勃发展,为证券行业添加了新动能,但突如其来的疫情爆发,使得行业无接触经济需求快速增加,也让数字经济展现出了无限可能。在数字经济大势下,证券行业纷纷加大了IT建设投入,并提出数字化转型的战略。

【长城汽车】开发运营一体化平台落地,车企深化数字化转型!

互联网时代,AI、5G、大数据、万物互联等新技术推动着各行业态的转变与发展,汽车行业顺势而动,在技术上致力于让汽车更加聪明、环保;在管理上以互联网打破时间与空间的限制进行协同,让周转更迅速、让成本有效控制;在业务上提供精细化、定制化、多元化的服务。“行业领先”不再仅限于产品的市场定位,同时也受管理、服务与技术支持的影响。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!