IT运维服务管理和保障体系160201

  • 格式:docx
  • 大小:64.28 KB
  • 文档页数:3

下载文档原格式

  / 6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IT运维服务管理和保障

目前企业的IT运维管理服务能力遇到的挑战主要包括:基础环境复杂、过程管理复杂、知识积累复杂等等。构建IT服务管理体系的过程需要结合业务特点以及人员、流程、工具现状,依据监控指标数据全面化解运维难题。尤其是近两年来云计算、虚拟化技术的不断成熟、发展,在IT硬件资源方面的资金投入降低,在充分提高资源的利用率以及系统的高可用保障方面有很大程度的提高。然而运维管理的复杂程度也不断攀升。

各个公司的IT架构不同,运维系统在发展过程中有不同的关注点,基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。实验室运维系统需要足够地完善、高效、流程化,基于ITILv3的运维服务管理。在ITILV3标准划定的10个核心流程中,与服务支持相关的5个运营级流程与IT系统结合比较紧密,属IT运维范畴。五个流程相互关联形成一整套IT运维处理机制。

ITIL的核心流程

以下为实验室云平台在过去的运维经验中总结指定出符合规范的管理流程

1、事件管理流程

事件是指可能引起或已经引起IT服务中断或服务质量下降的活动,事件管理的目的就是尽可能在最短时间内解决故障,减少事件对业务运作的影响。该流程首先是新建事件,在运维平台中,新建事件有两个来源:

一是当用户发现信息系统故障,通过电话或者邮件通知服务台,由服务台人员在系统中手动创建事件;

二是当监控平台通过监视工具发现性能指标超过闭值时,系统会自动创建事件。在创建事件时,服务台人员根据事件信息进行事件的分类以及设定优先级,同时系统会自动从运维知识库里搜寻该事件的解决方案,为服务台人员处理事件提供参考。如果服务台可以处理该

事件,就直接答复用户,否则将该事件指派给相关运维人员。当运维人员接收到该事件,对事件进行分析和处理,并将解决方案反馈给服务台。服务台向用户确定事件的处理效果,并填写用户反馈意见,当故障已解决,则关闭该事件。整个事件的处理过程都记录在事件问题库中,方便用户进行查询和统计分析,并根据情况,将解决方案记录到运维知识库中,实现知识的积累和共享,为以后处理同类事件提供参考。

2、问题管理流程

问题管理的目的是找出并消除引起事件的根本原因,从而避免事件再次发生。该流程首先是对事件进行分析,将之前重复发生过的或者非常严重的事件升级为问题,根据问题信息进行分类以及设定优先级。对问题进行分析并找出问题的根源,从而提出相应的解决方案,然后对解决方案进行审批,审批通过后,进行解决方案的实施,必要时触发变更管理流程。当实施结束后,对实施效果进行评审,评审通过后,关闭问题并将问题的处理过程记录到问题事件库中,同时根据情况,将解决方案记录到运维知识库中,为以后处理同类问题提供参考。

3、变更管理流程

该流程首先是新建变更请求,新建变更请求有两个来源:一是为了解决系统问题;二是为了适应业务的变化。在创建变更时,根据变更情况进行分类以及设定优先级。明确变更的风险及其影响,并制定详细的变更方案及计划。对变更方案进行审批,审批通过后,按照变更计划实施变更,同时触发发布管理流程。当完成变更实施后,对实施情况进行评审,如果成功,则关闭变更请求,并出具变更总结报告,反之,修改变更方案重新实施变更。

4、发布管理流程

由变更管理触发生成发布请求,根据发布请求制定发布方案以及计划,明确发布的内容、角色职资分配、发布日期等。根据变更实施情况组织用户进行培训和测试,确保变更和发布的成功。当测试通过后,确定软硬件版本并进行安装,同时触发配置管理流程,更新配置信息。

5、配置管理流程

配置管理是将IT环境中所有配置项(硬件、软件等)的信息以及配置项之间的关系记录到配置管理数据库中,从而为其他流程的处理提供软硬件的详细配置信息。发布管理会触发生成配置请求根据配置请求确定配置的范围并制订配置计划,识别本次更新的配置项,并将配置项的详细信息以及配置项之间的关系记录到配置管理库中,并定期对配置管理库进行审验,保证其配置信息能真实反映实际的情况。

现状:

第一、基础环境

健康的IT基础架构环境是业务系统运行的关键。在面向机房动力环境、网络结构环境、服务器以业务程序时,涉及了多厂商、多设备型号以及多版本的情况,这是当前IT运维管理过程中的所面临的最大挑战之一。

第二、过程管理

在IT服务管理中的过程管理是高效运维的关键。其中,人员因素起到了非常关键性的作用人员短缺的情况下,科学严谨的过程管理和顺手的工具,将会弥补运维短板。

第三、知识积累

知识管理是IT服务管理能力提升的关键。运维管理过程中很难将个人经验等隐性知识转化为显性知识,进行知识管理至关重要。

在完成IT基础架构资源管理的同时,需要改变传统的、被动救火式的运维管理方式,更多地转变为主动性的运维管理模式,提升了IT运维管理效率及运维质量。

第一,自主化。自助化的职责分工。通过监控指标,全网资源告警分布、关键设备性能视图,关键链路流量数据等,系统使用者能快速的掌握IT基础环境的运行情况。

第二,可视化。可视化的网络拓扑结构管理,及时掌握全网资源的可用性状态以及性能状态。当局域网和广域网故障时,以告警的方式对外呈现,便于运维人员及时了解全网运行状态,实时分析网络资源变化,为资源保障及扩容提供合理的数据支持。

第三,主动化。实时进行IT基础资源的监控,可用性管理及性能管理。依据预先设定的阈值条件当达到阈值范围后将通过告警的方式进行通知。告警台收到信息后,运维工程师能够第一时间获取告警资源名称、告警资源IP地址,详细的告警内容等。通过不同的告警等级,初步判断出告警的影响范围,从而为提高故障解决效率提供工具层面的支持。

另外需要实现了告警信息处理和知识库进行对接。针对告警处理过程生成相应的解决方案,进行评审后可以直接进入到知识库中进行管理。知识库将面向所有运维工程师开放使用,确保运维知识得以积累及传播。

第四,集中化。设备日志作为事前预警及事后分析的参照,同时在信息安全方面提供更具参考价值的信息。在日志数据采集完成之后,可以根据不同的维度进行日志分析,如:异常日志频发的IT资源、ERR级别及Critical级别变化趋势以及日志告警数量等。系统在收集日志后,根据不同的日志内容进行关键字匹配,将符合匹配内容的日志信息直接生成为告警信息。

系统运行数据指标和曲线图,能够非常直观地让我们了解到IT资源的性能变化趋势,这些指标数据是IT服务管理领域最可靠的决策帮助,只有使更多真实的运行数据为运营提供参考,发现人员、流程及工具方面的漏洞及隐患,才能最终提高运维管理水平。

以下从两方面入手去化解目前运维管理和保障体系。

监控

问题故障