数据中心智能运维体系研究报告及实践案例近年来,随着银行业信息化建设的快速发展,业务对信息系统的依赖程度越来越高,信息系统规模也随之越来越大
与此同时,IT系统运维作为银行业务连续性的重要保障,也逐渐由最初完全依靠技术人员的个人能力,开始向流程化、标准化、自动化转变,而智能化运维更是成为未来发展的主流趋势
简单来说,智能化即是指通过构建集“自我修复、自我维护”为一体的自动化故障处理系统,来实现“监控发现-问题定位-问题处理-问题解决”的处置闭环,进而在满足国家和监管机构合规性要求的基础上,保障各项业务的正常有序开展
在此背景下,为适应全新的发展需求,辖内商业银行从当前的已知问题及监管要求入手,基于传统“监、管、控”三位一体的运维平台架构,以提高监控的智能化程度为抓手,试点开展了典型告警场景的自动化处置实践
一、IT系统运维发展历程及现状研究从IT运维的发展历程来看,早期的运维工作大部分是由运维人员手工完成,但随着信息系统的快速扩张和人力成本高企,这种基于人工的运维方式逐渐难以为继,从而出现了自动化运维,即利用可被自动触发的、预定义规则的脚本来执行重复性运维工作,以减少人力成本、提高运维效率
然而,伴随整个互联网业务的急剧膨胀以及服务类型的多样化发展,“基于人为指定规则”的专家系统也开始变得力不从心
在此背景下,智能化运维(AIOps)的出现为商业银行提供了一种全新的解决方案,即通过将人工智能技术应用于运维领域,为自动化运维增加了一个基于机器学习的大脑,可指挥监测系统自动采集决策所需的数据并进行分析,进而使用自动化脚本去执行大脑决策
综上所述,智能化运维即是一个将人工总结运维规则变为主动学习的过程,同时借助长期积累的运维和监控能力,对其规则配置部分进行自学习的“去规则化”改造,进而利用大数据、机器学习和其他分析技术,直接或间接地增强IT业务的预测分析能力,最终以更高的质量和更合