电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

云计算系统的容错和故障恢复

云计算系统的容错和故障恢复_第1页
1/7
云计算系统的容错和故障恢复_第2页
2/7
云计算系统的容错和故障恢复_第3页
3/7
云计算系统的容错和故障恢复(1) 云计算属于分布式系统,许多因素导致系统异常:首先,云计算系统由成百上千的节点组成,节点的失效是常事。假如节点的平均无故障时间是 3 年,则一个1000 节点的机群,平均每天可能有一个节点故障。从商业成原来看,使用普通和主流的计算机(CPU,内存、网络、硬盘等)比高可靠计算机的性能/价格比更高,更何况无论多么可靠的计算机也会出现故障。其次,电源、网络等其他硬件也会出现故障;第三,软件出故障的几率远远高于硬件;第四,各种人为因素,例如错误的操作,也导致故障。由于这些因素,云计算系统需要很好地处理各种原因导致的故障,自动从故障中恢复,并且不影响运行中的上层的应用程序: l 多副本的数据云计算分布式文件系统保存了数据的多个副本(例如,GFS 缺省保存 3 份),当某个副本失效后,分布式文件系统的 master 会在适当的时机启动副本复制,使得数据的副本数保持设定的数量,保证了数据的安全;l Worker 故障分布式文件系统的 worker 可能出现故障,master 通过内置的 heartbeat/lease监控所有 worker 的状态,一旦确认某个 worker 故障,master 会把该 worker 保存的数据的副本个数减一,以便系统在适当时机启动副本复制以保证数据不会丢失;l Master 故障为了避开 master 成为系统的单点,master 也有多个副本:其中一个是主master,其余为辅 master,主 master 承担着 master 的职责,例如应答用户和worker 的请求,记录操作日志等;辅 master 通过操作日志保持与主 master 的准同步.当主 master 发生故障后,在分布式选举协议作用下,一个辅 master 会升级成为主 master,保证系统的继续运行;l 应用程序容错出于容错和故障恢复的原因,云计算系统的上层应用程序不能假设它正在或将要使用哪个 worker,也不能假设数据存储在或将要存储到哪个 worker 上,当应用程序需要使用数据时,云计算客户端库将询问云计算系统的 master 获得数据副本所在的位置,并向其中一个副本(通常是与该客户端网络“距离"最近的)发出数据请求,假如该 worker 在开始或者中途出现故障或因为其他原因无法完成该请求,则云计算客户端库会自动转向另外一个副本,这对上层应用是完全透明的。云计算系统的容错和故障恢复(2) 在前一篇文章中,我谈到了云计算采纳了数据多个副本(缺省是 3),除了应对各种软件硬件故障外,多个副本还提高了云计算系统数据读服务能力:每个...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

云计算系统的容错和故障恢复

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部