广西大学硕士学位论文基于Torus的并行计算机网络可靠性研究姓名:黄亿海申请学位级别:硕士专业:计算机软件与理论指导教师:王高才20090624基于Torus的并行计算机网络可靠性研究摘要近年来,随着电子器件的发展,计算机的处理能力有显著提高
但是,仅仅依靠电子器件的发展而达到的速度提高,远不能满足现代科学、工程技术和其他许多领域对高速运算能力的需要
这就要求人们改进计算机系统结构以及采用各种并行处理技术,以便大幅度地提高处理速度和运算能力
其中,以并行计算机系统为核心的计算机平台占据着极其重要的地位,基于Torus的并行计算机系统具有对称性、良好扩展性、规则、易于VLSI实现及路径多样性等诸多优点而备受关注
然而,由于并行计算机系统通常应用于非常重要的计算、控制和研究领域中
因此,系统一旦发生故障,将带来不可估量的甚至灾难性损失
为使并行计算机系统在运行或生产过程中能够保持正常运行,对其可靠性进行研究是重要课题之一
本文首先介绍本课题相关的预备知识,包括并行计算机与高性能计算机的关系、并行计算机体系结构、基于Torus的并行计算机网络的定义、可靠性的基本概念、可靠性发展概况、可靠性的重要意义、以及指数分布函数和马尔可夫过程等相关知识
接着应用马尔可夫过程研究基于Torus的并行计算机网络的可靠性
通过建立马尔可夫过程各状态空间图,且将状态图转换为可靠性模型的数学表达式,分析了结点失效相互独立条件下的Torus网络的可靠性,并将不同规模的Torus网络可靠度数值计算结果进行比较,结果表明网络运行时间越l长或网络规模越大其可靠性越低的一般规律
然后进一步分析结点失效相关的Torus网络的可靠性,并将数值计算结果与结点不相关的Torus网络可靠性进行比较,结果表明结点相关的Torus网络可靠性低于结点不相关的Torus网络
最后采用组合模型和递推分解的思想对大规模Torus网络