统一监控平台方案一、背景公司软件系统、硬件繁多,没有进行统一管理和监控,急需一种统一的监控系统进行全盘监控和管理
进行系统故障预警和告警,保障系统健康稳定运行
如今的服务普通由诸多不同系统模块构成,他们之间互相调用并通过 API 调用外部服务
每个交互是如何被执行的普通是一种黑盒
如何跟踪和监控这些模块之间的调用流并提供清晰的视图来定位问题区域和潜在瓶颈
如何能够在多个系统同时异常时,快速定位到异常的本源
二、总体方案1
监控内容 各个系统日志监控、办法监控、JVM 监控、中间件监控、中间件监控(ZK、ES、Kafka)、数据库监控、硬件监控(服务器等)2
技术选型Flume+Kafka+Spark+Elasticsearch+自研 UI埋点+pinpoint+zipkin 支持3
监控项目版本划分V1
1:实现日志收集,检索和分析功效V1
2:实现硬件资源管理V1
3:实现办法调用跟踪V1
4:实现调用链路跟踪4
监控平台架构图中间价日志监控系统应用异常监控( method 调用异常)应用性能监控中间件监控( zk 、 es 、 kafka )系统资源监控服务器监控 告警系统:针对监控的数据进行异常告警(mail、短信等方式)5
云化监控平台构想5
1 现在有诸多系统或者应用都是虚拟机应用,云容器应用是后期发展趋势,公司私有云能够协助公司实现节省项目实施成本
现在设计的监控平台为了兼容云应用系统,需要考虑云统一监控系统方案
现在主流的云平台采用 kubernetes+docker 技术实现
Kubenetes 实现对 docker 容器的统一管理和调度以及编排操作,统一监控平台如何去支持云平台应用的监控
RestAPIhealth 接口埋点 JARPinpointZipKinESSparkKafkaFlume统一监控平台日志监控办法调用监控JVM 监控特殊组件监控硬件监控