系统运行管理方案1
监控管理监控管理主要是通过对被管对象的配置数据、性能数据、告警数据的统一采集,实现对 IT 基础设施、应用软件以及业务的监控,主动发现被管对象当前的故障或告警信息并进行处理,保障系统的稳定运营
基础设施监控基础设施监控是指对所有主机、数据库、中间件、网络、存储、备份等设备及软件进行统一监控,及时发现平台类的告警
统一采集与控制根据运维监控管理平台技相关的要求,基础设施监控数据采集的范围包括各种设备的告警、性能、配置数据
数据采集★信息点采集模板界面化配置根据监控对象可灵活配置改对象需要监控的信息点、采集频率等信息,并支持模板的远程下发、更新
★采集代理远程下发、启停与集中监控可在下发采集模板时同步下发采集代理并进行友好的下发过程的可视化能力,下发后可自动启动采集代理
提供集中的采集设备监控代理运行监控界面,便于维护人员实时监测各个代理的运行情况,并提供便捷的重启、模板和代理程序更新功能
★采集代理组件化封装根据不同的监控对象和采集方式的差异化,对目前的监控代理进行组件化封装:>主机设备监控代理>数据库库监控代理>中间件监控代理>网络设备监控代理>日志监控代理>存储设备监控代理>备份设备监控代理1
告警处理告警处理是针对来自 IT 基础设施的告警信息进行统一处理,以便快速确认故障,缩短排障时间,为及时恢复系统运行打下良好基础
包括:告警定位、告警过滤、重复告警压缩、告警信息丰富、告警前转、告警操作等
■告警定位告警定位是通过对告警信息的查看确定故障可能发生的位置
■告警过滤告警过滤是指对大量重复的告警信息和次要、无意义的告警信息进行过滤,以避免告警风暴和无效告警或非关心告警的干扰以提高监控与处理的效率
■告警压缩告警压缩是对不同时间产生的相同告警,将其合并成一条告警信息,同时累计该告警的次数,更新最后发生时间等