织云Metis时间序列异常检测全方位解析腾讯社交网络运营部——Metis智能运维团队•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)业务规模•轻微的异常就会影响到大量的外网用户在线2
05亿SNG服务器20w+社交类指标240w+传统监控与新思路形态各异准确率低维护成本高•随着业务发展,传统监控呈现出的一些问题传统监控与新思路算法和机器学习的新思路是否可应用
•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)常见的机器学习算法回归基于实例正则化贝叶斯聚类基于核关联规则决策树深度学习从大量输入中总结出准确预测的规律(模型)数值型预测0/1型预测概率型预测等技术路线演进•基于正态分布的假设•基于弱平稳性的假设•基于趋势性,周期性时间序列的统计算法•正负样本不均衡•正负样本不全面•负样本稀少,难以获取分类问题(只用有监督算法)•使用统计判别和无监督算法过滤掉大量正样本•人工标注正负样本•有监督算法提升精准度解决方案(无监督+有监督)技术框架离线模块数据存储统计算法&无监督算法输出疑似异常样本库(人工标注)特征工程(离线计算)有监督算法(离线计算)数据提取统计算法&无监督算法输出疑似异常加载有监督模型特征工程(实时计算)有监督算法(输出异常)在线模块ABTest模块人工审核Atest(实验模型A)Btest(实验模型B)第一层:统计判别算法数据提取•以当前时刻为标准•七天前后三小时+昨天前后三小时+今天前三小时Grubbs•3sigma原理控制图•移动平均算法•指数移动平均算法√×3sigma算法与控制图算法的优缺点第一层:无监督算法√×无监督学习算法的优缺点数据提取•以当前时刻为标准•七天前后三小时+昨天前后三小时