下载后可任意编辑用 SNMP 协议实现系统监控 作者 王基立 系统监测的基本概念及分类:a.系统监测的概述:如何对现有 IT 架构的整体以及细节运行情况进行科学、系统和高效地监测是目前各企业运维和管理部门一项非常重要的工作内容。随着当前企业 IT 环境中 服务器、应用数量和类型的不断地增加,运维部门需要通过科学和高效的手段尽可能详细、实时和准确地猎取整个架构中具体到每个服务器、每个系统甚至每个应用 程序工作的细节,并且会对所猎取到的原始数据进行分析、绘图和统计,以便为后续的性能调优、建构调整以及各类型排错建立参考依据。常见的监测对象基本上涵盖了 IT 运行环境的方方面面,包括机房环境、硬件、网络等,而每一个方面所涉及的监测项目则种类繁多。例如对硬件环境的监测 中,所涵盖内容就会包括服务器的工作温度、风扇转速等指标;针对系统环境的监测,将包括基本的操作系统运行环境,如 CPU、内存、I/O、存储空间使用状 况、网络吞吐量、进程数量和状态等情况;针对具体的应用情况,涉及监测的内容可能会更多,而且也会有很多专门针对应用的指标。除了监测的内容需要尽量全面之外,同时我们还希望所使用的监测解决方案能够灵活和具备更多扩展功能。例如有效地支持 IT 架构的变化和扩展,在监测量增加的情况下能够尽可能少地占用资源,拥有强大的事件通知机制等等。今日本文所涉及的内容,主要是针对操作系统以及软件环境的监测,而且尤其是针对 Linux 操作系统的运行情况监测。尽管目前有很多的商用软件以及解 决方案来实现相关的功能,但是实际上我们也有很多开源的解决方案可以起到相同的作用,而且效果也非常不错。下面的内容中,我们将会对这些解决方案的实现方 法进行详细描述。b.基于 Linux 上系统监测的基本原理以及种类:在 Linux 系统上的系统监测所采纳的方式基本上有两种:第一种,通过 SNMP 协议结合数据采集软件来实现:这种方法所涉及的架构一般包括两部分,其中一部分是被监测服务器,另外一部分则是网管工作站。至于实现方法具体来说就是在 Linux 服务器上启动 下载后可任意编辑SNMP 简单网络管理协议的进程 snpmd 来动态提供服务器在软件甚至硬件各方面的运行参数,这样服务器就成为了一个被监测的节点。然后在其他的网管工作 站上的客户端软件应该具备两个功能:采集 SNMP 数据以及汇总统计信息。在绝大多数情况下,网管工作站上的监测软件都会基于 Web 页面方式...