电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

阿里云大数据计算平台的自动化、精细化运维之路

阿里云大数据计算平台的自动化、精细化运维之路_第1页
阿里云大数据计算平台的自动化、精细化运维之路_第2页
阿里云大数据计算平台的自动化、精细化运维之路_第3页
阿里云大数据计算平台的自动化、精细化运维之路本文章来自于阿里云云栖社区摘要: 作者简介: 范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010 年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput免费开通大数据服务:https://www.aliyun.com/product/odps作者简介: 范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010 年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute 等)的运维、架构优化及容量管理等 1、前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战; 阿里自动化平台建设; 数据精细化运维; 我对运维转型的思考和理解; 2、在阿里我们面对的挑战 在讲挑战之前,我们可以简单看一下阿里大数据平台演进历史,我们的 MaxCompute(原 ODPS)平台是 2011 年 4 月上线的,2013 年 8 月份单集群超过 5K,2015 年 6 月单集群超 10K,目前在进行异地多活和离在线混布方面的事情。 首先是规模大、小概率事件常态化 对于小概率事件大家不能赌运气,基本每次都会踩中狗屎的。譬如各类硬件故障,规模小的时候觉得硬件故障概率比较低,即使坏了也比较彻底,但是规模大了后会有很多情况是将坏不坏,类似这种奇葩事件会越来越多。 还有网络链路不稳定,网络链路会有很多原因导致它不稳定。一方面是网络设备多了,网络设备出现故障的概率也大了,另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。 还有一部分是工具,机器的环境变得复杂以后,我们对工具稳定性就有更高要求,比如你要考虑到有些机器的 SSH 会 hang 住,还有某些机器 yumdb 是坏的,不能想当然的以为一条命令下去一定会执行成功。 其次是多机房多地域 几千公里距离会有几十毫秒的延时增加,大家在布置异地多机房应用的时候,要考虑到应用之间的超时设置是不是合理,需要重新 review 尤其针对多次往返的请求,累加效应是非常明显的。 还有一块是资源不均衡,可能那个集群早上忙一点,那边是下午忙一点,但是因为计算任务依赖下面大规模底层数据,所以你不可能利用长传带宽直接来进行直读直写的计算,因此要考虑应用的合理布局。 关于自动化平台建设,自动化的意义我想...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部