网管平台需求分析&12.5监控主机权限表122.6维护主机配置表132.7维护用户表142.8维护权限表142.9操作记录表(该表记录长期保存)153.业务流程163.1监控系统业务流程163.1.1监控客户端处理流程163.1.2服务器处理流程163.2维护系统业务流程171.平台需求分析1.1需求的提出目前我司在全国5个省份(广东,江苏,浙江,湖南,新疆)数10个节点部署了业务系统,各种类型的主机有数百台,并且随着业务的发展这个数字会不断增长,系统的维护和监控是一个庞大的工作,因为人力的限制,不可能对每台主机都做到细致化的维护,一些问题往往不能及时发现,影响了服务质量和对业务的支撑。网管系统的目的就是将人工的维护操作尽量交由电脑执行,以做到高效,实时,可靠。平台由两套系统构成,监控系统和维护系统。监控系统主要是监控主机的运行情况,及时发现故障;维护主机主要是在维护主机上远程执行一些维护动作。系统部署©DB©DB前置机策略服务前置机协议转协议转分城域网出口上城域网出口下行■■/图一:网络结构图结构图中阴影部分为某个节点部署的业务系统网络示意图,其中要监控和维护的主要是占主机绝大部分数量的前置机、策略服务器、业务服务器和数据库服务器,这些服务器都是基于LINUX操作系统运行(目前是RedHatAS3),从部署上来说,要求符合以下要求:1.监控系统和维护系统是两套独立的系统,互不影响;2.一套监控/维护系统可对多个节点的不同类型服务器进行监控/维护;监控/维护对象取决于系统配置;3.同一台主机可最多可被多达10套系统同时监控,被5套系统同时维护;管理平4.网管系统完全独立于业务系统,网管系统的部署不会对业务系统带来影响(如业务中断);1.2功能需求1.2.1监控系统对主机的监控包括以下四大类监控,分别说明如下:主机资源监控♦CPU使用情况监控监控主机CPU的利用率,一台主机一般有多个CPU,要了解每个CPU的利用率以及总体的平均利用率,每间隔N秒采集一次CPU信息并动态展示在监控界面上,当CPU长期处于高负载时(即连续N个采集信息得到的利用率值都超过阀值),系统做相应的告警;♦内存使用情况监控;监控主机内存的利用率以及当前可分配使用的内存空间大小,每间隔N秒采集一次内存信息并动态展示在监控界面上,当内存长期处于高负载时(即连续N个采集信息得到的利用率值都超过阀值),系统做相应的告警;♦磁盘使用空间监控监控主机磁盘的利用率,一台主机一般有多个磁盘,要了解每个磁盘的利用率以及剩余空间大小,每间隔N分钟采集一次磁盘信息并展示在监控界面上,当某个磁盘空间的利用率超过阀值时候,系统做相应的告警;♦网卡流量监控主要监控采集网卡流量采集情况,包括流量的大小,采集到的包数,错误包的包数,每N秒采集一次,当某段时间内(连续N个采集信息)低于阀值或者丢包比例超过阀值的时候系统做相应告警;♦操作系统进程监控监控系统中当前运行的进程数量,每N分钟采集一次并显示在界面上,当总的进程数超过阀值时,系统告警;网络监控♦网络连通情况监控主要主机之间的网络是否联通,比如前置机是需要和策略服务器以及业务服务器互联,每N分钟采集一次,将结果显示在监控界面;如果网络不通则写入告警信息;请注意通常一台主机是需要和多台主机互通的;应用程序监控♦应用程序进程监控主要监控系统中应用程序的进程是否存在,进程的最新启动时间,当进程不存在或者进程的启动时间距离当前时间低于允许阀值的时候进行告警;♦应用程序日志监控主要监控应用程序日志的大小和日志的最新更新时间,N分钟采集一次,当日志太大超过阀值或者很长时间都没更新(即当前时间减去日志更新时间)时系统告警,请注意一个应用程序可能有多个日志而只对其中部分监控数据库监控数据库监控只对数据库服务器适用♦表空间使用情况监控统计数据...