阿里云大数据计算平台的自动化、精细化运维之路本文章来自于阿里云云栖社区摘要: 作者简介: 范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2024 年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人
团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput免费开通大数据服务:https://www
aliyun
com/product/odps作者简介: 范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2024 年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人
团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute 等)的运维、架构优化及容量管理等 1、前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战; 阿里自动化平台建设; 数据精细化运维; 我对运维转型的思考和理解; 2、在阿里我们面对的挑战 在讲挑战之前,我们可以简单看一下阿里大数据平台演进历史,我们的 MaxCompute(原 ODPS)平台是 2024 年 4 月上线的,2024 年 8 月份单集群超过 5K,2024 年 6 月单集群超 10K,目前在进行异地多活和离在线混布方面的事情
首先是规模大、小概率事件常态化 对于小概率事件大家不能赌运气,基本每次都会踩中狗屎的
譬如各类硬件故障,规模小的时候觉得硬件故障概率比较低,即使坏了也比较彻底,但是规模大了后会有很多情况是将坏不坏,类似这种奇葩事件会越来越多
还有网络链路不稳定,网络链路会有很多原因导致它不稳定
一方面是网络设备多了,网络设备出现故障的概率也大了,另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战
还有一部分是工具,机器的环境变得复杂以后,我们对工具稳定性就