数据中心智能运维体系研究报告及实践案例近年来,随着银行业信息化建设的快速发展,业务对信息系统的依赖程度越来越高,信息系统规模也随之越来越大。与此同时,IT系统运维作为银行业务连续性的重要保障,也逐渐由最初完全依靠技术人员的个人能力,开始向流程化、标准化、自动化转变,而智能化运维更是成为未来发展的主流趋势。简单来说,智能化即是指通过构建集“自我修复、自我维护”为一体的自动化故障处理系统,来实现“监控发现-问题定位-问题处理-问题解决”的处置闭环,进而在满足国家和监管机构合规性要求的基础上,保障各项业务的正常有序开展。在此背景下,为适应全新的发展需求,辖内商业银行从当前的已知问题及监管要求入手,基于传统“监、管、控”三位一体的运维平台架构,以提高监控的智能化程度为抓手,试点开展了典型告警场景的自动化处置实践。一、IT系统运维发展历程及现状研究从IT运维的发展历程来看,早期的运维工作大部分是由运维人员手工完成,但随着信息系统的快速扩张和人力成本高企,这种基于人工的运维方式逐渐难以为继,从而出现了自动化运维,即利用可被自动触发的、预定义规则的脚本来执行重复性运维工作,以减少人力成本、提高运维效率。然而,伴随整个互联网业务的急剧膨胀以及服务类型的多样化发展,“基于人为指定规则”的专家系统也开始变得力不从心。在此背景下,智能化运维(AIOps)的出现为商业银行提供了一种全新的解决方案,即通过将人工智能技术应用于运维领域,为自动化运维增加了一个基于机器学习的大脑,可指挥监测系统自动采集决策所需的数据并进行分析,进而使用自动化脚本去执行大脑决策。综上所述,智能化运维即是一个将人工总结运维规则变为主动学习的过程,同时借助长期积累的运维和监控能力,对其规则配置部分进行自学习的“去规则化”改造,进而利用大数据、机器学习和其他分析技术,直接或间接地增强IT业务的预测分析能力,最终以更高的质量和更合理的成本,实现对所维护产品或服务的有效支撑。当前,商业银行大多根据长期形成的运维内容和流程,详细划分了各项工作中的岗位设置和职责分工,并按照相应岗位要求配备了不同专业、不同层次的运维人员,组成了专业分工下高效协作的运维队伍。但在实际工作中,往往只有当事件发生并已经造成业务影响时才开始着手处理,这种被动的“救火”方式不但使IT运维人员终日忙碌,也使IT运维质量很难提高,事倍功半且常常会出现恶性连锁反应。另一方面,作为金融网络安全保障的基石,运维安全环节一旦出现问题还往往会导致严重后果,由于运维服务通常会涉及服务器、网络等关键基础设置,出现安全问题不仅将导致敏感信息泄露,甚至会直接影响到业务发展。此外,IT运维事件也反映出企业在安全规范、流程的执行层面出现了问题,容易对企业的高效管理和安全信誉带来负面影响。面对新形势下的一系列挑战,要求传统金融机构必须要加快转型步伐,以更有效的应对策略来推进IT运维的适应性发展,尤其在运维安全管理流程、运维安全技术创新、运维人员安全管理等方面,更是需要积极开展创新探索和实践。二、智能运维管理体系建设及实践目前,银行IT运维团队在管理过程中的痛点主要集中在系统繁多、设备复杂、标准混乱、操作无序等方面。对此,辖内商业银行结合自身工作实际,开展了智能化运维管理体系建设,不仅提供了基础运维(发布变更、监控处理、数值调整、数据提取等)的无人值守服务,同时为减轻运维人员负担,还搭建了各种轻量级的管理类及职能类应用平台。1.智能管控平台建设智能管控平台主要用于实现系统用户和角色的统一管理,并提供了各种应用系统间的单点登录/退出以及统一的身份认证功能,通过保证同一用户在不同应用系统中的身份一致性,可高效追溯用户的使用记录。在技术层面,智能管控平台主要采用了典型的两层分布式C/S结构,并包含了Agent、服务以及ZooKeeper、Redis、MySQL等周边保障模块,不仅可为上层应用提供指令、文件和数据的传输通道,还支持直连模式、代理模式以及为达到最优连接的指定级联路由模式。其中,Agent是一种部署在业务机器上的程序模块,其可以单独部署也可以混合部署...