AI技术加持,让数据中心网络运维无忧生产系统上云,事后故障处理方式无法满足业务0中断诉求人工故障识别人工抓包定位人工逐步隔离异常流占30%传统运维可以识别6.482.8全网流3.65%2.01.61.10.63媒体医疗70%传统运维无法识别0.09零售制造电信能源金融来源:NetworkComputing,theMetaGroupandContingencyPlanningResearch故障0容忍故障发现难故障定位难每小时停机损失百万美元数据中心网络智能运维势在必行看病:故障1-3-51分钟故障识别,3分钟故障定位,5分钟故障恢复根因分析体检:网络健康度基于业务体验评估网络健康,定期体检,主动预防故障预测容量预测健康管理故障识别故障恢复已发生故障未发生故障看病:AresGuardian故障训练工具,实现故障自动注入与学习CharacteristicLearning故障特征生成故障自动化注入,故障标签、故障现象数据自动化收集,根因特征自动化挖掘在线故障诊断在线故障学习Aresguardian故障特征外置云端训练带标签数据Onlinelearning在线学习Fault1:characteristic:xx1Fault2:characteristic:xx2Faultn:characteristic:xxn知识库•••故障注入:自动注入打标签、自动生产故障数据Datafactory数据工厂ARES故障注入推理引擎故障自识别:学习认知故障,自动挖掘故障模式与监控数据关联关系,故障模式自识别故障自恢复:学习免疫故障,根据识别根因Ares协同自动训练恢复动作,故障自恢复统一南向采集InsightTelemetry数据故障注入故障1-3-5:基于故障演练实现故障知识的持续积累故障类型:攻防网络安全类,3表项类,5配置类,17配置类整网类,7非Fabric类硬件类服务器演练组网:资源规格类整网类PE资源规格类,14表项类BLBL网络安全类SpineSpine非Fabric类,15硬件类,142018-2019年累计演练150+次,根据华为30+年运维经验、7800+数据中心客户的网络故障场景,梳理总结7大类,75种故障类型。SLSLLLLLLFWFWLB服务器服务器服务器服务器服务器故障1-3-5:AI+知识推理,实现故障根因快速定位CollectAnalysisDecision华为30+年运知识推理引擎知识1知识2知识3知识4维专家经验根因分析手动恢复真实局点故障持续学习训练风险预测异常检测故障流路径建模基于意图闭环AI引擎网络数据智能识别连通类Issues业务流数据/Telemetry数据..故障1-3-5:AI驱动网络,挖掘“数据”价值第一步:异常检测,识别业务异常100第二步:聚类,群障特征挖掘AI驱动的故障预测AI驱动的流量预测AI驱动的根因分析W3应用,目标网段为10.100.10.8/28异常500正常区域某特定端口的会话TCP业务连接中断数出现异常跳变源地址为VPC1的会话AI分析FabricInsightAI驱动的异常识别AI驱动的异常检测Telemetry数据中心网络基础设施故障1-3-5:“业务流->路径->设备”关联分析应用行为分析网络-应用流关联网络状态评估邮件视频在线游戏人工智能InsightAnalysis即时通讯VR/AR业务时延2丢包流路径13应用是否运行正常?应用体验是否正常?ECMP网络每条流的实时网络路径网络路径中设备的运行状态?每条链路承载的业务?拥塞/丢包发生在哪里?故障1-3-5:网络即“数据库”,NetDiff解决方案网络快照1网络快照NFIB配置日志Node-1:Node-2:配置Node-3:FIB网银区Node-4:DB时间戳1时间戳N基于时间维度的网络快照跟踪:正常VS异常,变更是最直接的反映;NetDiff解决方案基于Telemetry实现管理面(配置)、控制面(SYSLOG、GRPC)、转发面(ERSPAN、NetStream)的变更实时管理,基于变更快速感知UseCase1:注入ARP表项不足导致业务互访失败场景与挑战方案故障根因一键诊断某企业业务扩容后出现连接中断,如何查找根因?Telemetry实时采集业务流网络变更实时可视❶断点确认:ping,trace路由排查10min查看故障推理❷故障排查:登录网关命令行排查,发现存在ARP未学到20min20min正常流与异常流路径比对网络管理员人工定位耗时❸故障定界:与应用侧联合排查是否存在VM下线❹日志检索:数百万日志逐条排查,发现扩容后ARP达到上限60min故障根因一键诊断Bottom-up的网络视角,定位信息分散依靠人工经验从各异常指标中判断故障根因定位耗时长UseCase2:注入路由环路导致外网访问业务失败场景与挑战方案客户报障某应用访问失败,网络管...