AI技术加持,让数据中心网络运维无忧生产系统上云,事后故障处理方式无法满足业务0中断诉求人工故障识别人工抓包定位人工逐步隔离异常流占30%传统运维可以识别6
63媒体医疗70%传统运维无法识别0
09零售制造电信能源金融来源:NetworkComputing,theMetaGroupandContingencyPlanningResearch故障0容忍故障发现难故障定位难每小时停机损失百万美元数据中心网络智能运维势在必行看病:故障1-3-51分钟故障识别,3分钟故障定位,5分钟故障恢复根因分析体检:网络健康度基于业务体验评估网络健康,定期体检,主动预防故障预测容量预测健康管理故障识别故障恢复已发生故障未发生故障看病:AresGuardian故障训练工具,实现故障自动注入与学习CharacteristicLearning故障特征生成故障自动化注入,故障标签、故障现象数据自动化收集,根因特征自动化挖掘在线故障诊断在线故障学习Aresguardian故障特征外置云端训练带标签数据Onlinelearning在线学习Fault1:characteristic:xx1Fault2:characteristic:xx2Faultn:characteristic:xxn知识库•••故障注入:自动注入打标签、自动生产故障数据Datafactory数据工厂ARES故障注入推理引擎故障自识别:学习认知故障,自动挖掘故障模式与监控数据关联关系,故障模式自识别故障自恢复:学习免疫故障,根据识别根因Ares协同自动训练恢复动作,故障自恢复统一南向采集InsightTelemetry数据故障注入故障1-3-5:基于故障演练实现故障知识的持续积累故障类型:攻防网络安全类,3表项类,5配置类,17配置类整网类,7非Fabric类硬件类服务器演练组网:资源规格