首页

/

如何基于IT事件全生命管理周期,提升业务连续性?

发布日期:2023-02-17 17:01:00

分享到

进入数字化时代,IT架构面临的复杂性越来越高,业务连续性管理这项IT最基本的工作,也成为了很多行业或企业IT运维的最核心任务;业务连续性管理是一个持续不断提升的过程,围绕“快速发现事件→快速响应事件→快速定位与处理事件→减少事件发生”的事件生命周期闭环,结合一体化运维平台,是提高业务连续性保障水平的一种好思路


01. IT运维的趋势与挑战

当前,各行各业正如火如荼持续推进自身业务和管理模式的数字化转型。数字化转型在提升客户体验、加快业务创新交付、为运营提能增效方面确实可以为企业带来重要价值;但与此同时,企业数字化转型给IT运维带来极大挑战,数字化转型推动新技术、新场景的快速迭代,让运维面临的复杂度、不确定性因素加大,企业业务连续性面临更大挑战和不确定性。


02. ITIL事件生命周期

ITIL将IT服务管理分为十个核心流程和一项管理职能。这十个核心流程分别是服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理、可用性管理、配置管理、变更管理、发布管理、事件管理、问题管理,一项管理职能是服务台

ITIL V3中把事件定义为“任何可被发现或辨别的事情,此类事情对于基础设施的管理或IT服务的交付有重要意义,以及有助于评估可能导致服务出现的偏差。” 与ITIL V3相比,ITIL 4给出的定义更清晰,事件(Incident)是指服务的意外中断或服务质量的降低。

在ITIL中,IT事件管理是IT基础架构管理策略的一部分,包括监控、调查、上报和响应IT平台上发生的事件。在ITIL 事件管理生命周期中,ITIL 提供了一个七步流程来处理事件:

步骤一:事件识别

这是服务台第一次意识到问题的时候。用户可能会检测到与用户体验相关的事件,并提出投诉。另一方面,技术事故通常是在日常监控中发现的。

步骤二:事件记录

一旦确定了事件,服务台就应该将其记录下来。他们通常会要求确定事件的人的姓名、发现的日期和时间以及对错误的描述。然后服务台将进行事件分类。这是一种确定问题类型的方法。事件分类有两个目标:使服务台能够查找任何趋势,并通知事件优先级。事件优先级是确定解决方案紧迫性的过程。这通常被定义为“高”、“中”或“低”,并基于受影响用户的数量和事件造成的破坏程度。

步骤三:事故调查与诊断

这是解决事件的第一步。受影响的用户与服务台的一名成员讨论该事件,以查看是否有立即解决的方法,或者他们是否可以快速识别问题。如果服务台的假设成功,则问题已解决,可以直接跳到步骤 5。但是,如果没有立即修复,事件将需要进入下一阶段。

步骤四:事件分配或升级

由于需要进一步工作,服务台会将事件分配给现场技术人员或经过认证的支持人员,他们将寻找解决方法,然后调查事件原因。

步骤五:事件解决

顾名思义,此步骤涉及服务台确认事件已解决。

步骤六:事件结束

此时,事件被视为已结束,流程结束。

步骤七:用户满意度调查

组织可能会要求用户在问题解决后完成一份简短的问卷,以确定他们是否对服务交付感到满意。这是识别事件管理过程中任何问题的好方法,例如无用的服务台员工或不满意的解决方案。同时,压倒性的积极反馈是提高员工士气的好方法,它可以帮助识别在工作中表现出色的团队成员。

将上述事件生命周期的七步流程抽象为快速发现事件、快速响应事件、快速定位与处理事件,但这些环节偏事件发生后的事后应对处理环节,可以再补充偏事前的减少事件发生环节,形成完整的事件生命周期如下图,下文主要围绕下图事件生命周期展开解析如何提升业务连续性。


03. 围绕事件生命周期提升业务连续性

1)快速发现事件

以前,通常是根据最终用户和IT专家的信息来报告大多数事件,这种获取信息的方法仍被广泛使用,但是现在一个好的实践建议是自动发现和报告事件。可以在事件发生后和开始影响用户之前立即被发现。这种方法具有多种好处:

  • 事件较早发现缩短了服务不可用或降级的时间;
  • 更高质量的初始数据支持事件正确的响应和解决,包括自动解决,也称为故障自愈;
  • 一些事件可能在影响与客户约定的服务质量之前得到解决,从而提高用户满意度;
  • 与事件相关的成本可能会降低。

总体来看,事件主要从服务台与监控体系而来,用户反馈到服务台属于被动发现,监控体系属于主动发现,监控体系又包括针对IT资源对象的指标监控、针对应用系统的调用链监控和针对资源与应用的日志监控。

被动发现维度,可以通过提升用户报障渠道的便利性从而提升事件发现的及时性,比如电话、邮件、IM入口、应用系统嵌入入口、工单系统等;主动发现维度,通过提升监控对象的覆盖率、指标的及时性、告警的有效性等促进快速主动发现事件故障。


2)快速响应事件

所有的事件都应该被完整地记录下来,无论是由服务台受理的还是由监控告警自动生成的。所有与事件相关的信息都应该被记录下来形成一份完整的历史记录,这样如果其它支持组查询事件时他们能够获得所有相关信息来帮助他们。事件需要被分配合适的事件类型代码。这样,准确的事件类型就被记录下来。通过事件类型或频率确定趋势,用于问题管理、供应商管理和其他IT服务管理活动,这一点十分重要。

在一些用户只是寻求某种信息的事件(服务请求)中,服务台可以很快的解决这种服务请求。对于服务台无法处理的事件,为了实现快速响应,需要快速精准的分配给一线支持人员。派单规则可结合值班管理与配置管理,步骤可参考比如示例:

  • 根据告警对象从配置管理CMDB里找到对应的业务系统
  • 根据业务系统找到对应的值班单位、值班组及岗位
  • 找到该值班单位对应的值班人员(符合该值班组及岗位的)并派工单
  • 如果该岗位没人值班,则将工单派至值班经理
  • 如果有多个符合条件的人员,则随机派给一个符合条件的值班人员

如果一线支持人员也难以快速解决问题,则需要进行事件升级。事件升级包括职能性升级与管理性升级两类:

职能性升级:即将一个事件从一线转到二线及以上的支持,这样可以得到更多的专业技术、时间或者资源来解决事件。职能性升级也可能发生在协议规定的时间到期后,事件仍然没有解决的情况;

管理性升级:即将事件单升级到更高级别的管理人员,以协调必需的资源来解决事件。管理性升级也可以发生在事件解决流程的任何时刻。


3)事件快速定位与处理

事件管理是记录和解决事件问题的过程。事件管理的首要目标是尽快将运营恢复到正常状态,并将对业务运营的影响降到最低。在这个过程中,问题定位与恢复速度往往是重中之重。甚至通常是先通过临时修复而不是永久解决方案来解决,稍后才会进行永久性修复。

如何做到事件快速处理和业务快速恢复呢?需要从故障快速分析和故障快速处理两个维度着手。


① 故障快速排查分析定位

基于监控数据进行综合分析:结合时序指标(metric)、日志(log)、调用链(trace),将收集到的所有数据通过数据标签体系进行关联,在一套界面上展示所有的信息,从而快速定位问题;

结合配置管理CMDB拓扑进行关联分析:按照应用或对象进行事件聚合,展示告警事件的详情与关联拓扑,快速排障;

基于历史经验进行定位:借助沉淀到ITSM知识库中积累的知识经验辅助分析,知识库需要持续运营;


② 故障快速处理恢复

对故障进行分类分级处理,针对不同类型故障采用不同处理方法,比如代码缺陷引发的故障采用回滚操作、组件异常故障采用高可用集群切换或组件重启、微服务调用复杂场景的故障采用限流降级等手段

使用故障自愈手段,故障自愈是采用"故障自动化处理"解决方案,提升企业的服务可用性和降低故障处理的人力投入,实现故障自愈从“人工处理”到“无人值守”的变革。通过自动化处理节省人力投入,通过预定的恢复流程让恢复过程更可靠,通过并行分析达到更快的故障定位和恢复。

一句话总结:实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现整个流程的闭环。故障自愈常见快速恢复手段包括进程启停、清磁盘、主备切换等。

另外,借助ITIL最佳实践,快速恢复的实现手段还包括:

集中会诊:尤其是出现重大故障时,技术专家要聚集起来,集中解决故障,恢复服务。

事件模型:对于经常发生的问题,可以定义事件模型进行记录。

减少事件发生:“上医治未病,中医治欲病,下医治已病”,实际上,为了更好的增强业务连续性、提升IT服务质量、提升企业客户满意度,应该尽量减少事件的发生才是上策。

如何减少事件发生呢?可以从提升变更质量、加强问题管理、巡检体系建设、提升灾备演练与自动化切换能力着手。


① 强化变更管理

80%的故障都是变更引起。ITIL4将变更支持实践中定义的最大化成功服务和产品的变更主要表现在以下三个方面:确保已正确评估风险、授权进行变更、管理变更时间表。促成变更的五个主要活动是:记录、计划、批准、执行、回顾

记录:包括在公共位置记录或记录变更内容,以便所有利益相关者都能了解变更的原因和优先级。记录有助于审查,评估,评估变更的优先级。

计划:包括调整任务以及准备资源和组件。计划阶段的目标是确保成功进行变更,同时将对现有服务和组件的影响降到最低。

审批:是进行变更需要正式授权。 授权的级别取决于变更和公司的文化,高风险的变更与规避风险的文化相结合可能需要更多的利益相关者批准。

执行:主要是变更的实施。按照所有利益相关者记录的议定时间表和步骤执行和实施变更。沟通至关重要。客户、员工和其他用户需要知道短期和长期的变化期望。执行可以在演练环境中进行验证,测试对于确保功能和非功能需求至关重要,尽管测试级别可能会根据变更类型而有所不同。

回顾:为了提升变更的效率与减少变更的出错率,变更会遵循计划的变更时间表,在变更工具平台(比如变更自动化系统、发布自动化系统)进行自动变更。如果变更出错,需要执行回滚计划。


② 升级问题管理

与事件管理强调事件恢复的速度不同,问题管理强调的是找出事件产生的根源,从而制定恰当的解决方案或防止其再次发生的预防措施。

问题管理流程在运作过程中需要与其他多个流程进行信息上的沟通。它需要根据事件管理、容量管理、配置管理、服务级别管理等流程提供的信息制定解决方案和应急措施;同时它所产生的解决方案和变更请求等信息又需要输入事件管理和变更管理流程的运作过程。


③ 巡检体系建设

如何保证信息系统的安全稳定运行,及时发现和消除信息系统隐患是对企业信息系统运维人员的巨大挑战。自动化巡检的应用提升了信息系统运行的可靠性,减轻了运维人员的工作压力,对大型复杂信息系统的运维工作模式具有重要示范意义。

通过对机房基础环境设备、网络设备、主机、数据库及中间件系统等实现巡检,自动收集各种巡检项指标,及时发现系统缺陷和故障,为不同角色的运维人员提供统一的工作平台。巡检体系包括对巡检对象实现全方位的健康性检测和告警,包含软硬件基本信息、系统配置、安全配置、系统运行状态和系统性能状态等方面的检查。


④ 灾备演练管理

一般来说,灾备的级别可以分为数据级、应用级和业务级三个级别。无论数据级还是应用级,都只是灾备建设的技术手段。灾备建设作为一项系统工程,远远超出了这个技术范畴。要想灾备系统在关键时刻能发挥应有的作用,完善的灾备应急预案、定期的灾备演练、自动化的灾备切换和恢复能力不可缺少。


04. 事件生命周期管理最佳实践

嘉为蓝鲸一体化运维PaaS平台,基于蓝鲸平台打造,实现企业一体化运维,覆盖配置管理中心(CMDB)、可观测中心、IT服务管理中心(ITSM)、自动化运维中心和多云管理中心的企业运维场景,并为客户提供了强大的扩展能力,满足当前及未来运维管理所需。

嘉为蓝鲸可观测中心,通过监控、告警、日志实现故障发现、故障处理和故障复盘;覆盖基础设施、应用、云原生等企业各类IT对象,并实现告警治理、指标治理、监控统一、可视化统一的整体解决方案,并与配置管理中心、IT服务管理中心、自动化运维中心无缝集成,实现事件生命周期闭环管理,包括告警收敛、告警关联定位、告警自动转工单、故障自愈等。

同时,通过嘉为蓝鲸自动化运维中心的变更管理、应用自动化发布、自动化巡检、灾备切换自动化,以及IT服务管理中心的问题管理,减少事件故障发生的概率。

进入数字化时代,IT架构面临的复杂性越来越高,业务连续性管理这项IT最基本的工作,也成为了很多行业或企业IT运维的最核心任务;业务连续性管理是一个持续不断提升的过程,围绕”快速发现事件→快速响应事件→快速定位与处理事件→减少事件发生”的事件生命周期闭环,结合一体化运维平台,是提高业务连续性保障水平的一种不错思路。

免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!