IBM Power Platform Reliability Availability and Serviceability (RAS) 简介 在2008年4月,IBM正式发布了新款基于Power6架构的服务器:IBM POWER 595。POWER6 处理器是一款具有高性能和增强型 RAS能力的处理器。与 IBM POWER5处理器芯片的服务器家族相比,IBM POWER6 服务器更易于管理并提高了系统资源的利用率。另外,IBM PowerVM为 POWER 系统产品提供虚拟化技术,使得一台服务器可以运行少则十个多则上百个重要的应用。 在IBM看来,服务器的设计必须能够避免计划内和计划外宕机,同时也能够一直关注应用的在线时间。 从可靠性,有效性和适应性(RAS)方面来看,IBM POWER系统家族服务器包含了用来提高可用性,支持新级别的虚拟化的特性;这些特性是基于过去的IBM eServer p5, pSeries和 iSeries家族服务器上已经发布的先进的RAS特性之上的。 IBM RAS工程师不断改进服务器的设计,确保服务器支持高水平的并发错误检测,故障隔离,恢复和可用性。IBM每一款新服务器相对于老一代的产品,都具有更好的可靠性。IBM已经花了多年的时间为大型机和关键应用服务器开发RAS。基于POWER6 处理器芯片的服务器是在POWER5 处理器的可靠性技术基础上设计实现的。 RAS 设计理念 接下来简单陈述一下IBM POWER Systems最重要的设计目标: 部署一个基于架构的设计策略来构建可以避免非计划应用宕机的IBM服务器。当遇到硬件发生错误,系统必须分析,隔离和标记有问题的部件,以方便修复(可以通过“自我修复”的动态修复或者标准的服务操作),使得系统的中断很小甚至不中断。这个策略适用于所有系统。 RAS架构体现了 IBM工程师设计的核心原则,服务器设计目标是为了实现如下的特性: 1. 通过大量内置于系统内的,支持有助于正确操作环境的高可靠性部件,来实现高可靠性设计。 2. 在服务器设计的前期,准确识别最有可能发生错误的部件。部署一个服务器架构,允许服务器在这些部件发生间歇故障的时候能够恢复,或者在必要的时候切换到冗余部件上。 错误恢复的自动重试机制: 错误操作:通过POWER6 处理器的指令重试机制实现 错误数据在 I/O系统传输 损坏的缓冲数据-在缓存中重新载入数据(重写数据)。内存子系统将存储缓冲的数据备份 同样也可以通过保守的策略(冗余策略): 服务器设计可以通过,例如:两条连接CEC机箱和I/O抽屉的I/O连线,来实现完全冗余的功能; 冗余且实现 N+1的校...