一、背景面对日益复杂的分布式微服务架构,传统IT运维面临的压力和挑战与日俱增,任何一次服务中断都会对公司业务造成极大影响,因此当故障发生时,面对海量监控数据和庞大的分布式系统,仍依赖运维人员在高压下人力做出迅速、准确的运维决策,这显然是不现实的
就我们公司目前情况:1
监控质量较低,未能准确告警,经常发现问题已是1、2个小时之后,很多还依赖用户反馈
告警事件多产生告警风暴、告警疲劳,干扰定位问题3
定位问题复杂,依赖人工定位问题,由于链路长,处理故障时间长,平均处理一次故障约47分钟以上1
1什么是根因分析根因分析方法广泛应用于IT和医学等领域
著名IT研究机构Gartner为根因分析给出的定义,是一种旨在将当前条件与过去采集到的结构化/非结构化数据模式进行匹配的复杂分析方法,根因分析的目标是尝试定位一个系统错误的问题根源
2为什需要根因分析异常检测旨在表明某些不正常现象,而根因分析则试图阐明“是什么问题”、“为什么发生问题”、“问题的最佳解决方案是什么”,这一系列目标需要准确性和精确性根因分析的优点:实施效果良好的根因分析会大幅缩短系统中断后的平均故障恢复时间(MTTR);根因分析可以减少对经验的依赖,并可以通过定向响应进行更多的机械补救;如果精度和准确度足以满足用例的要求,根因分析将为智能自动化开启大门;二、目标基于故障诊断专家系统提升故障发现、故障诊断能力(暂时不做故障自愈),逐渐减少人力在运维决策中所占的比例,逐渐增加自动化运维决策的比例故障定位时间:由原来20min以上缩短至5分钟左右线上事故覆盖率提升至98%+提升检测准确率,精准告警,减少告警骚扰运维成本:配置域值、校准阈值、大量报警、人工分析->智能根因分析三、方案3
1基于故障树的专家分析推理系统故障推理的过程就是模拟人工专家的思维,从一个表象抽丝剥茧般的发掘根因的过程
这种故障根因分析系统行业内目