传统企业IT运维管理中主要存在哪些问题 IT运维管理当前面临了哪些问题?

作者&投稿:连翔 (若有异议请与网页底部的电邮联系)

当前,随着企业数字业务的快速发展和业务量的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着巨大挑战。

在传统运维方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足当前主动运营的要求。

具体来说有以下几点:

  • 发现问题难:企业在经年累月中布局了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。

  • 根因定位难:发现问题时一般都是对问题进行定性分析,可能了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。

  • 数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。

  • 运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。

而智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。

    智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:

  • 运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;

  • 业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;

  • 运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;

  • 业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;

  • 智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,对这种趋势不太清晰,借用著名作家威廉吉布森的话,“未来已来,只是分布不均。”



日常IT运维管理面临诸多难题,具体体现在以下多个方面:
  网络设备

  在企业IT基础设施的搭建过程中,底层的网络设备厂商和类型多样且复杂。随之而来的问题是:如何将不同厂商的网络和应用管理产品在界面级、消息
级和数据级集成起来实现统一管理?如何让IT管理员了解到整个网络全局的运行情况、发展趋势和可能存在的故障隐患点,以便及时采取相应措施,实现事前管
理。

  拿曾经碰到过的一个典型客户来说,它的网络中有11种厂商的路由交换设备,还有存储设备,安全设备,UPS等。同时还拥有:小型机,服务器等,上层的业务系统有OA和CRM等。这样大而复杂的一个网络环境,该怎么管呢?

  科学的运维管理思路告诉我们,首先需要解决的是对IT基础设施的管理,管理范围要能覆盖到机房所有硬件设备。这一点是前提和基础。其次,才是对各种应用系统做到很好的监控。最后,才能为业务系统提供足够的保障。

  网络流量

  在绝大多数的企业网络中,存在不同程度的网络延迟,造成重要业务和应用时断时续,这直接成为企业业务的杀手。另外,网络的带宽也是企业关心的重
点。比如,哪个时间段很拥挤,哪个时间段很空闲,有没有规律,怎么样去调查拥塞的原因,网络带宽都是被谁占用了,是被哪些客户端、哪些应用或者异常应用所
占用了。这些都是摆在每一个企业运维管理领域中很实际的问题

传统IT运维管理中存在很多问题,有些企业可能并没有意识到这些问题的存在,具体问题如下:
1、难以实现规范化管理
IT运维工作中存在的问题,很多是由于管理不善造成的,不知如何加强规范化管理。
2、救火式被动工作模式
很多IT运维工作模式是救火式的被动工作模式,服务响应速度缓慢,故障恢复时间长,越来越不能满足日益增长的业务发展需求。
3、企业IT部门成本无法降低
很多企业因缺少智能化、自动化的运维工具,导致在人力成本、时间成本上的花费增多。
4、缺乏高效的IT运维技术工具
企业缺乏事件监控和诊断工具等IT运维技术工具,没有这些高效的技术工具的支持,故障事件很难得到主动快速处理。
所以,要解决这些问题,需要规范管理,将被动的工作模式转变为主动工作,同时借助智能化的运维工具,如数字化管理平台来帮助企业管理。

IT运维自动化的传统运维管理方式存在的问题~

目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:(1)运维人员被动、效率低在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。(2)缺乏一套高效的IT运维机制目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。(3)缺乏高效的IT运维技术工具随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

现在的企业几乎都是互联网办公,网络一旦出现问题,会对公司业务造成重大损失。而很多公司主业也不是IT,对网络问题不大懂,对于公司的网络问题往往都是请一个运维工程师处理。这些工程师有相应的专业能力,但管理人员的“不懂行”却让运维工作存在很多问题,主要有这五点:

1、缺乏有效的知识积累和共享,造成操作维护效率低下,类似的故障和问题仍然在不断发生,不断解决着,同时一旦某些掌握关键信息和技能的人发生意外状况(如生病,离职等),整个日常维护可能面临严峻的考验。

2、工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细定位。

3、IT网络运维人员大多没有养成记录习惯,每个月汇总报告时,对自己的工作量、所维护系统的整体情况还是一头雾水。而且纸质的故障处理报告信息要素不全,统计和查询都是头痛的问题。

4、运维人员几乎很少能准时下班,处理突发技术故障的事情也时有发生。运维人员往往像“救火队员”一样去处理故障。 在“救火式”的IT管理维护模式下,很难有效地进行服务管理,无法保证IT服务的有效性和一致性,IT管理往往处于无序状态。

5、对于运维工程师的工作绩效缺乏客观考核依据。他们到底做了哪些事情?哪些事情还没有做?工作完成的时效性怎么样?解决问题的质量怎么样?这些问题,只能凭印象得出一个个模糊的答案。

如何解决以上问题?

如何解决以上提到的问题是目前许多企业用户需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。

1、细化用户角色,力求提高运维效率

运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。网络管理中的角色是根据ITIL标准进行划分的,是把IT运维各种事情(包括人员、资源、突发事故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。

2、设立IT运维服务台,规范IT流程

在网管软件中,一般提供自助服务和运维服务台,自助服务台的作用是,给用户报故障,评价IT人员解决问题是否负责等。运维服务台是为了确定运维等级和引入优先处理原则。运维服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。

3、FAQ和知识库,最大限度节省人力成本

提供FAQ和知识库两种方式,知识库是指对网络运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解决,则用户利用服务台申请维护,用户申请将会移交给相应的负责人,负责人第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库能帮助运维人员节省大量的时间,从而节省人力成本支出。

最后,专业的事情要用专门的人员来做,还要配合专业的方法。运维工程师是以技术为主的群体,他们往往关注于IT问题本身,主要通过提升自身技术实力来解决问题,不太关注技术之外的事情。这种情况下不可避免的会出现一些问题,这就需要管理人员来解决了。

it运维主要做什么
答:it运维主要做的事情设备的管理、应用服务的管理、数据的管理、业务管理、企业计算机资源的管理,如下:1、设备的管理 这个设备包括所有计算机系统的硬件以及辅助设备,包括服务器、个人终端、网络以及操作系统等全面监控和维护。若设备出现故障必须第一时间进行处理,这种处理问题的效率对于IT外包服务商来说尤为...

什么是IT运维管理?
答:5、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;6、·资源资产管理:管理企业中各 IT 系统的资源资产情况,这些资源资产可以是物理存在 的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;7、信息安全管理:目前信息安全管理主要依据的国际标准是 ISO17799...

运维管理系统一般有哪些功能?它具体能做什么?
答:运维管理系统具有多种功能,它可以帮助企业和组织更好地管理其IT资产和运维工作。以下是一些常见的运维管理系统功能:设备监控和管理:这是运维管理系统最基本的功能之一,它可以实时监控和管理各种网络设备,包括服务器、交换机、路由器等。通过这个功能,管理员可以随时掌握设备的运行状态和性能指标,及时发现...

IT管理的内容
答:实现完善的IT运维管理是企业提高经营水平和服务水平的关键。运行/维护阶段与服务/支持阶段的分界线为前者是面向IT部门内部的管理,而后者是面向业务部门、企业中的其它人员或直接面向客户二、服务/支持该阶段主要为IT部门的运维人员向其它人员(内部和外部)提供服务与支持,内容主要包括用户投诉与申告的及时...

IT运维都包含什么工作内容?有了解的吗?
答:4、发布管理运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等,正确率达标;二、其他运维工作承担新员工导师工作,辅导新员工快速熟悉公司文化、环境、工作岗位及提升技能,为新员工顺利通过试用期提供保障;持续反省自身的工作、总结工作中存在的不足和可改善之处,积极对部门运作...

系统运维主要做什么
答:4. 业务管理:IT运维的一个关键职责是保障企业内部核心业务的顺畅运行。他们需要监控和管理核心业务的运作情况,确保业务不受干扰。5. 企业计算机资源管理:IT运维还需管理企业IT资产,包括跟踪和监督企业的更换和维修费用。此外,他们负责发布统一的信息和内容,并管理对特定人群发布的内容。

企业管理信息化系统包括哪些主要的模块
答:企业管理信息化的建设和对策 企业管理信息化的概念 企业信息化其实是个宽泛的概念,在不同的单位有不同的实质内容。 企业管理的要素是人、财、物的管理,现代企业没有哪个岗位是孤立存在的,为了完成工作目标需要多岗位协同配合。这样就产生管理流程。信息化就是将企业现有的管理流程、管理思想、管理目标和措施电子化。

谈一谈我国企业管理信息系统存在的主要问题有哪些,该如何应对?
答:中小企业是管理信息系统主要的应用领域,中小企业复杂的管理活动给管理信息系统提供了典型的应用环境和广阔的应用舞台。20 世纪 50 年代中期,计算机作为强有力的数据处理工具与手段,开始在中小企业管理中应用。 50 多年来,中小企业应用管理信息系统经历了从简单、局部应用到高级、全面解决管理问题的发展过程。任何一个...

it运维主要做什么
答:由于这是一个随着计算机信息技术的深入应用而产生的新课题,因此如何进行有效的IT运维管理,这方面的知识积累和应用技术还刚刚起步。对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义。企业将IT部门的职能全部或部分外包给专业的第三方IT外包公司管理,集中精力发展企业的核心业务。简单的说就是...

运维管理系统一般有哪些功能?它具体能做什么?
答:运维管理系统通常具备多项关键功能,旨在提升IT资产的管理效率与稳定性。以下是这些系统的一些主要功能:1. **设备监控与管理**:该系统能够对网络中的服务器、交换机、路由器等设备进行实时监控和管理。管理员能够通过它来跟踪设备状态和性能,及时识别并处理问题,确保连续运行。2. **故障诊断与维护**...