关于系统稳定性策略的探讨1
前言系统作为业务系统的核心,其运行稳定性和高可用性至关重要
因此,需要通过高可用性设计来尽量减少系统的计划内和计划外停机,并在系统出现故障时及时响应、快速恢复,以保障关键数据和业务系统的运行稳定性和可持续访问性其中:1
计划内停机是指管理员有组织、有计划安排的停机,比如升级硬件微码、升级软件版本、调整数据库库表、更换硬件设备、测试系统新功能等时,可能需要的停止系统运行
计划外停机是指非人为安排的、意外的停机,比如当硬件出现重大故障、应用程序停止运行、机房环境遭到灾难性的破坏时所引起的业务系统停止运行
目前,对于计划内和计划外停机,可通过消除系统中的单点失效来尽量减少停机时间
同时,通过采用可在线维护(固件升级、在线扩充、故障部件更换)的设备,并通过负载均衡机制实现应用系统的在线升级、维护,将有效消除计划内停机对业务系统的影响
此外,由于系统中采用了全面的负载均衡设计,并针对系统失效提供了可靠的数据备份恢复和多点容灾保护,因而能够有效减少系统计划外停机的恢复时间
在造成系统宕机的原因方面,有统计中表明并非都是硬件问题
其中,硬件问题只占40%,软件问题占30%,人为因素占20%,环境因素占10%
因此,高可用性设计应尽可能地考虑到上述所有因素
对于系统而言,其整体的可用性将取决于内部的应用系统、主机、数据库等多种因素;同时,训练有素的系统维护人员和良好的服务保障也是确保系统稳定运行和故障快速恢复的关键
应用系统系统在应用软件架构设计中应从渠道层、渠道管理层、业务处理层等不同层面通过多种措施和策略的综合设计来提高应用系统的高可用性和稳定性
在渠道管理层和业务处理层的设计中,要考虑设置应用负载均衡、应用软件失效备援、vip服务通道、流量控制、故障隔离等机制
应用负载均衡应用软件负载均衡通过多个层次上不同的负载均衡策略一起实现整体的负载均衡,