首页

/

AIOps与传统运维工具的区别在哪儿?

发布日期:2022-08-30 11:35:59

分享到

1. 从传统运维到AIOps应用

1.1 场景举例

以企业常见的监控场景为例,传统的运维模式一般会采用阈值指标对特定的IT对象设置告警策略。阈值的设定往往是固定不变的指标,在某些情形下会出现误告警或者不告警的问题,固定的阈值指标不能直接反映被监控对象的运行状态;更有甚者,许多告警事件之间存在共同原因,但是因为现有技术手段的原因不能找到发生告警的根本原因。诸如此类的情形导致组织效率低下、运维成本增高。

以上是传统运维中发生的典型场景,为了解决类似的问题,我们从场景出发抽象出解决方法的逻辑,可以发现,运维人员要做到:

  • 在统一信息的基础上作数据分析,得出告警的根本原因以及彼此之间的联系。

其实要实现类似的功能或者目的,不可或缺的是机器学习、大数据分析等新兴技术手段。

1.2 传统运维困境特征总结

传统的运维模式正在面临两个主要的运维挑战:

  • 运维环境的混合度和复杂性日益提高:企业业务往往运行在复杂的基础设施上(本地数据中心、公有云、私有云等),业务架构混合多样(集群、分布式、微服务等)。
  • 新的IT技术不断采用:为了满足企业员工和终端客户的更高的需求或者更好的使用体验,现有业务往往要保持一定频率的新技术的更新使用。

与上例中传统运维面对的监控场景的困境类似,日益复杂的运维环境和新技术的更新迭代会带来一下问题:

  • 运维环境复杂度和规模增加使得数据规模量暴涨,带来数据分析的困难,以及IT运维团队无法技术对海量数据背后的事件的出现给出处理的优先级。
  • IT 运维团队识别运维环境中相互依赖但是独立存储和分布的关联数据,如难以实现故障的根因定位。
  • IT运维难以对要发生的事件进行提前预测,无法根据快速分析实时数据,难以及时响应运维问题。

一般而言,传统运维要经过脚本化运维、工具化运维、平台化运维、大数据运维,才能到达智能化运维阶段。如果从执行和决策的角度观察整个运维体系的演变,运维体系的决策权和执行权逐步的向机器或者系统转向,越是先进的运维体系或者工具,人在运维工作中的比重越低。具体内容可参看下图:




1.3 传统运维困境解决方案—AIOps逐渐浮出水面

我们必须承认:在传统方案下的运维能力已经达到了传统运维阶段应有的最高效率,因为一旦传统的运维解决方案进一步改进的空间,那么运维困境就不会这么广泛和普遍,也就是说以上传统运维面临的共性问题是已有的运维体系达到了自身的能力边界后产生的。

在运维行业,技术的革新和应用是提升运维效率的至关重要的方法。针对传统运维无法解决的问题,新的技术和方法得到应用,比如大数据技术、机器学习技术。而AIOps正是以这两种技术为代表的新兴的运维技术解决方案。


2. AIOps内容

2.1 AIOps演变

AIOps是从ITOA演变过来的一个行业术语,ITOA是通过软件或者工具把不同来源的信息收集起来进而运用大数据分析技术形成对运维事件的观点。AIOps在内涵上与ITOA有一脉相承的地方,但是在以下三个方面做了拓展:

  • 可以获取更多种类的数据
  • 可以处理除历史数据以外的实时数据
  • 利用机器学习技术来帮助分析总量不断增长的数据集

2.2 AIOps定义

根据国际著名管理咨询机构Gartner的定义,AIOps是大数据和机器学习的结合,使 IT 操作流程自动化,包括事件关联、异常检测和因果关系确定。

如何理解Gartner的定义呢?这里有两个重点,一个是大数据和机器学习的技术手段,另一个是基于技术手段做到的场景功能:运维环境或者事件的可视化(这里的可视化不仅仅是指可视化的界面展示,而是侧重运维数据包含能够导致工作人员得出对运维事件的有价值观点的信息,如因果关系、关联关系等)。具体可参考下图:



我们可以将AIOps理解成:学习人类在运维过程中枯燥乏味的部分,包括机械化的操作、思维固化的判断识别,并代替人类高效完成这部分工作,让人类能够将时间和精力投入到有价值的创造中去,让企业实现业务价值,让员工发挥创造性,获得自我收获。

机器学习的作用在于:使用算法从运维数据中自动分析获得规律,并利用规律对未知数据进行预测、预警。

机器学习过程包括:

整个AIOps的运维过程可以概括为:AI帮助人,ML赋能人。

2.3 AIOps的运维目标

作为传统运维技术方案出现缺陷之后的补救或者优化方法,AIOps旨在得到运维环境中有意义的见解并采取行动,以帮助 IT 运行更高效的运营、做出更好的决策、以及支持业务生产力进一步发展。


2.4 AIOps工作原理步骤

  • 提取数据信息:在日益混合的基础架构中,提取来自基础设施、中间件、网络、数据库、应用的信息,包括实时信息和历史信息,当然在此过程中会涉及事件和数据的规范化处理。
  • 发现和统一拓扑关系:发现IT资产配置之间的关联关系并形成拓扑关系,该拓扑关系明确了各个IT配置之间的逻辑依赖关系,让运维工作人员可以更好的了解运维资产以何种方式支持业务。
  • 利用拓扑关系建立运维事件的关联性:通过将IT资产配置信息的拓扑关系与相关运维事件的发生时间、逻辑位置联系起来,把事件进行压缩,呈现出有效信息。
  • 事件识别:机器学习能力帮助AIOps解决方案持续学习和提升对单个事件模式的理解,达到发现甚至提取预测重要的事件、事故或者异常行为的目的。
  • 事件解决:通过前面四个步骤,AIOps可以修复或者处理异常的事件。高效的AIOps解决方案有两种主要的事件处理方案:持续观测以自动处理以及给出清晰的运维指导或者建议。

2.5 AIOps最佳实践

  • 提供跨领域的运维感知,赋予可操作性:利用企业各个运维领域的数据,通过运维平台管理,AIOps可以更好的预测问题、更快的解决问题,并始终提供在线服务。
  • 事件降噪:将严重事件与常见的普通事件区分开来,以更加清楚的了解导致事件风暴的实际问题。
  • 智能异常检测:通过整合整个IT环境的数据,AIOps可以过滤冗余或者无效数据,进而触发适当事件的通知;传统运维模式往往使用静态的阈值设置,告警指标难以根据事件的发展动态进行调整,AIOps的异常检测能力通过将当前数据与历史趋势进行比较得出事件运行规律,智能决策是否触发事件告警。
  • 事件的智能化处理以及智能管理通过持续检测基础架构的运行状态以及服务台活动,用户可以主动采取行动处理事件或者根据智能运维系统的建议进行处理,整个事件处理过程更加快速。
  • 跨领域的事件感知和根因分析:使用先进的分析技术整合来自各个运维领域的数据,AIOps有更好的机会得到问题发生的根本原因,进而提高时间升级的效率,降低平均修复时间。
  • 容量分析:理解IT资源的利用方式和使用时间,决定需要资源的应用或者服务的资源分配,识别限制资源以减少资源消耗,削减成本。

2.6 业界AIOps运维建设进展总结

根据人工智能运维体系在现实中的落地情况,大概可以分成五个发展层级,分别是:初始级、成长级、成熟级、专家级、卓越级,就大多数使用智能运维手段的公司而言,相当比例的企业处于专家级之前的阶段。



2.7 AIOps运维服务架构设计

经过前面的叙述,我们要时刻不忘AIOps的运维的本质:数据逐步建设和治理、学件逐步深入和全面、场景逐步扩展和联动、组织逐步培养和赋能,即无论是任何工具或者技术手段的应用,都要服从于提升运维体系建设、赋能组织的运维目标。

AIOps运维体系架构图参考:



2.8 AIOps建设路径

① 路径架构图

通过以上的介绍,可以发现,AIOps的发展路径一直受到数据处理和分析能力的延宕或者推动,换言之,是数据的分析和处理能力决定了企业的智能运维解决方案能够走多远。下图展示了整个AIOps运维的建设路径,数据管理能力分成了三个阶段,由数据管理能力决定的智能分析也如此划分,智能运维的目标是具备智能数据管理能力以及复合模型的分析能力,从而服务与业务画像(运维数据的洞察)。

② 数据管理

在AIOps运维体系中,数据的管理以及基于数据的分析能力是整个智能运维的基础和起点。

从数据属性上将,数据包括属性数据、运行数据和服务数据:

从数据的来源上讲,智能运维致力于把来自技术、业务及管理的数据元数据进行采集、存储、分析、应用:

对这三种数据的管理要遵循几个原则:

  • 确保异构数据获取保证统一管理
  • 实现同源变更
  • 保障多方应用的数据消费
  • 确保数据的质量管控




3. AIOps相比传统运维的优势

AIOps在整体层面而言,可以实现海量数据下的智能决策,提升故障发现、分析、处理的整体效率,并不断沉淀经验,实现更为快速和精准的运维运营决策。

具体到各个利益利益相关方,则有如下的优势:

1. 对一线运维人员:

  • 大数据带来更多价值:传统运维模式下,包含在海量运维数据之内的有效信息无法得到高效利用,AIOps通过使用机器学习、大数据等技术手段可以从运维系统生成的数据中了解更多的信息,并可以将曾经的数据噪音转换为有价值的看法或者观点,辅助运维工作人员做出决策。
  • 具有更流畅的操作:AIOps 可以通过更快的根本原因分析、主动支持、自动化操作和预测分析来帮助公司避免代价高昂的停机时间并提高 MTTD/MTTR。

2. 对企业IT部门:

  • 降低成本:通过时间处理左移,企业可以节省时间、削减成本,同时让服务台能够专注于更高优先级的任务。
  • 提高 IT 效率:AIOps 最终使 IT 员工能够更多地专注于需要人工解决的问题或者任务,并可以通过人工决策的输入持续改进IT的运维工作流程,比如通过人工帮助机器处理无法处理的信息甚至决策。

3. 对使用企业产品

  • 改善最终用户体验:通过运维工作的主动响应、更快的自动化处理,AIOps可以减少最终用户在发生IT问题时的时间花费,进而提升用户体验,为用户带来更好的产品或者服务。


免费申请演示

联系我们

服务热线:

020-38847288

QQ咨询:

3593213400

在线沟通:

立即咨询
查看更多联系方式

申请演示

请登录后在查看!