大规模高效能计算的系统软件关键技术讨论为满足大型应用不断增长的计算性能需求,高端计算系统的规模越来越大,结构越来越复杂,计算密度越来越高。功耗大、管理复杂、可靠性低、成本高等问题严重制约着大规模计算技术的进一步进展。高端计算已经由一味地追求高性能转向综合考虑系统产出率的高效能,力求在提高系统性能、鲁棒性、易用性的同时,降低系统成本。系统软件是实现大规模系统高效能计算的关键环节。本文面对高效能计算,立足系统软件,从功耗管理和用户环境两个方面展开讨论,取得如下创新性成果:1、为保障大规模计算系统在供电预算约束下的用电安全,提出了基于结点分类的系统峰值功耗管理模型 PCNC 及相应的功耗控制算法,以可接受的管理开销和系统性能损失,有效地控制系统的运行峰值功耗。其创新点有:(A)按功耗特性和作用,将系统中的结点分为统计源结点集合、特权结点集合、候选结点集合和目标结点集合,降低系统功耗管理的采样和控制规模;(B)采纳两级阈值设置,将系统功耗分为安全、警戒和危险三个状态,以作业为基本调节单位,对不同状态实行不同程度、不同结点范围的功耗控制措施;(C)设计并讨论了基于状态和基于变化的两类目标结点选择策略。实验表明,该功耗控制系统在控制效果最大损失 7.4%的代价下,将控制开销降低了 76.3%,适用于大规模计算系统,两类目标结点选择策略在系统性能损失分别为 1.4%和 1.1%的代价下,超标功耗累积效应各自降低 73%和 66%,优化效果明显。2、针对大规模系统中未运行作业的空闲活跃结点产生的能耗浪费,提出了大规模系统空闲结点的功耗管理模型 ASDMIN 以及对空闲结点休眠深度的自适应管理算法,以较小的响应速率损失,有效降低系统空闲能耗。其创新点有:(A)多级储备结构:以当前结点支持多个休眠状态的硬件机制为基础,将空闲结点按所处功耗状态划分为不同休眠等级的结点储备集合;(B)隐蔽式状态迁移:资源分配时,首先从最高级储备池选取结点,只有当高级储备池中的结点不足以满足应用需求时,才由低一级储备池中的结点补足,空闲结点的功耗状态根据应用负载需求动态升降级,状态迁移在结点处于空闲备用时进行,状态迁移的时间开销不影响系统响应速率;(C)自适应控制算法:综合考虑能耗与系统响应速率两个相互冲突的因素,设计了基于 ASDMIN 模型的资源分配与回收算法、休眠结点在不同休眠状态之间的动态升降级算法以及储备额阈值动态自适应校准算法。实验表明,...