中小银行运维架构:解密与实战
上QQ阅读APP看书,第一时间看更新

1.2.1 ITIL

随着时间的推移,信息系统的规模越来越大,特别是在互联网浪潮的带动下,信息系统的规模和复杂度更是前所未有,要如何解决这些问题呢?

要解决一个问题,只需要给出一个方法;要解决一批问题,可以先把它分解成一个个问题。那么,一类问题要怎么解决呢?把它抽象归类成一批问题吗?事实上,无数前辈正是按照这个思路应对的。在这个过程中,英国政府走在了前面,他们组织一批专家研究、开发出了一套标准、规范、有效的IT服务管理方法论,命名为ITIL(Information Technology Infrastructure Library,信息技术基础架构库)。ITIL目前已成为全球公认的IT服务管理最佳实践。

ITIL已经发布了多个版本,这里以ITIL V2为例介绍。ITIL V2由一系列模块组成,其中“服务管理”是其核心模块,包括“服务支持”和“服务交付”两大部分。“服务支持”包括一项管理职能“服务台”和5个运营级流程,即事件管理、问题管理、变更管理、发布管理、配置管理;“服务交付”部分提供了与IT管理相关的5个战术级流程,即SLA服务级别管理、IT服务财务管理、能力管理、可用性管理和IT服务连续性管理。

服务支持相关的5个运营级流程与运行维护保障工作相关度较高,属IT运维范畴,接下来对这5个运营级流程进行简单介绍。

1. 事件管理

事件是指可能引起或已经引起IT服务中断或服务质量下降的活动。事件管理的目的就是尽快解决问题或消除隐患,减少事件可能对业务带来的影响,以满足服务级别协议(SLA)的要求,从而保证最佳的效率和服务的可持续性。

注意,事件并不一定代表异常,比如外联专线备用线路中断,触发了告警阈值,可以视为事件,此时该事件尚未造成任何影响,但若未能及时处理,则有可能引起故障,导致服务中断或服务质量下降。

事件的产生通常有两种来源,一种是由用户发现的系统功能异常,通过电话或者邮件通知服务台,由服务台值班人员手动记录事件;另一种是通过监控平台发现监控指标超过阈值,由系统触发进而创建事件。

事件发生后,服务台值班人员会根据事件信息,对事件进行分类,设定优先级。如果系统功能足够完善,那么系统能自动从知识库中寻找同类型事件的解决方案,为服务台提供参考。如果服务台判断无法处理该事件,就将该事件指派给运维人员。运维人员接收到该事件后,对事件进行分析和处理,并将解决方案反馈给服务台。服务台向用户确定事件的处理效果,并填写用户反馈意见,若故障已解决,则关闭该事件。事件的处置比较强调处理速度,应以恢复生产正常运转作为最高优先级的目标,同时整个事件的处理过程都应记录在事件问题库中,方便用户进行查询和统计分析,并根据情况将解决方案记录到知识库中,实现知识的积累和共享,为以后处理同类事件提供参考。

2. 问题管理

事件发生不可怕,可怕的是同样类型的事件重复发生,为了找出并消除引起事件的根源,防止类似事件发生,由此引入问题管理流程,也就是通常说的“事件转问题”。通过调查事件的相关信息,将之前重复发生或发生后引起故障的事件升级为问题,分析所发生的事件或事件发生的趋势,请专家、找高手,确定问题出现的根本原因,提出解决方案或临时性应对策略,以避免或降低问题发生带来的影响。实施解决方案之后,还应对实施效果进行跟踪和评审,并将问题处理过程记录到知识库,为后续处理同类问题提供参考。

问题管理与事件管理有着本质的区别,事件管理的目的是恢复生产,因此强调恢复速度;问题管理关注的重心则是查明事件产生的原因,找出事件产生的根源,制定可靠的解决方案,防止类似事件再次发生。

3. 变更管理

变更管理的目的是确保IT环境的各项变更得到评估、批准和实施,通过定义标准的方法和步骤,使变更能够快速实施并且可控,减少因为IT环境变更引发的突发事件,将由变更所导致的服务中断对业务的影响降到最低,提高基础设施、应用系统及IT服务的质量。

变更需求通常有两个目的:一个是解决现有基础架构或IT服务的问题,比如针对事件或问题的解决方案,就有可能触发变更管理流程;另一个是适应业务需求的变化,要针对现有应用系统增加特性、丰富功能。

变更要由专业团队进行评估和综合分析,明确变更的风险及其影响,并制定详细的变更方案及计划,跟踪变更的结果。

4. 发布管理

发布管理与变更管理密切相关,变更管理流程会触发发布管理流程,而发布管理就是将测试验证通过的系统版本发布到线上生产环境。发布同样需要制定发布方案和发布计划,明确发布内容、发布时间、支撑配合人员等,并根据变更的具体情况对发布结果进行发布验证,确保变更和发布的成功。

5. 配置管理

发布阶段有可能触发配置管理流程,比如当发布涉及新增服务器时,就需要同步更新配置信息。配置管理的目的是保持配置相关信息的准确性。IT环境中各类资源,比如设备信息、应用系统信息以及IT资源之间的关联关系等,都保存在配置管理数据库中,IT资源的整个生命周期管理过程,从采购、到货、上架安装、使用、下架到报废等,都应在配置管理中以不同的状态体现出来。这些信息不仅仅只是存储,还会为其他流程的执行提供必要的基础元数据,因此,为了保证这些信息的准确性,如实反映实际情况,需要在配置出现变更时,及时将变更更新到配置管理数据库中。综上所述,配置管理流程就是要对IT设备的生命周期进行维护和跟踪。

除了前面提到的这5大流程外,“服务支持”部分还包含一项关键职能:服务台(Service Desk)。在ITIL的定义中,服务台作为IT部门与用户之间的联络员,是IT服务的中心,不仅要负责受理事件、接收服务需求、用户咨询、投诉等,而且要负责事件合理分派、服务协调、调动资源、跟进处理IT事件,还要作为流程发动机,触发其他活动和流程,并负责汇总分析事件、预警重复多发性事件及转问题流程等。

比如在事件管理流程中,服务台接收并创建事件后,首先会借助知识库系统尝试对该事件进行处理,当服务台无法处置时,会将该事件转派给相关IT运维人员,并在后续持续跟进事件的处理情况,直到得到用户反馈,确认事件已经解决,再关闭该事件。

ITIL是从实践中得来的,直接照抄流程不一定能取得最佳实践效果,而且IT技术更新太快,如果理论框架不能与时俱进,那么也会遇到新问题。

2007年5月,ITIL V3由OGC(英国商务部,是ITIL的官方管理部门)正式发布。V3整合了V2的精华,引入服务生命周期这一新概念,如图1-2所示,并且在2011年推出修订版。修订版包含26个流程,以及服务战略、服务设计、服务转换、服务运营、服务持续改进5个生命周期阶段。

图1-2 ITIL V3体系架构

注:图片来自https://freshservice.com/itil/what-is-itil。

ITIL也为后续的研究和实践指出了一条道路。越来越多的组织加入IT服务管理体系的研究和实践中来,总结IT服务方面的经验和教训,不断研究如何提供可靠、优质的IT服务,寻找质量可测量、成本可计量的管理手段,摸索IT服务的规范化方法,促使IT服务管理由技术为导向转变为以流程为导向,最终走向标准化、可改进的道路。

ITIL树立的这一套以流程为中心的IT服务管理方法,通过流程将服务这种相对抽象的概念转换成实体。同时,流程拥有很多维度,比如复杂度、响应时间、数量、频次、投入资源等,这些是可以度量并考核的。例如大家最熟悉的考核方式之一——KPI,两者相互结合,通过KPI来度量流程的效益,通过先后记录的比对,展现IT服务的绩效,为虚无缥缈的IT服务设计一把量尺,让IT服务的质量可测量、可评价、可改进。