Torqu e + Mau i 配置手册之抛砖引玉篇 本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的 Torque+Maui 如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注 MAUI 这个功能强大的集群调度器(后期将推出 SGE+MAUI 版本)。本文中的涉及的软件版本Torque 版本: 2.1.7 maui 版本:3.2.6p17。 1 . 集群资源管理器 Torque 1.1. 从源代码安装 Torque 其中 pbs_server 安装在 node33 上,TORQUE 有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的 pbs_mom,机群中每一个计算节点(node1~node16)都有一个 pbs_mom 负责与 pbs_server 通信,告诉 pbs_server 该节点上的可用资源数以及作业的状态。机群的 NFS 共享存储位置为/home,所有用户目录都在该目录下。 1.1.1. 解压源文件包 在共享目录下解压缩 torque # tar -zxf torque-2.1.17.tar.gz 假设解压的文件夹名字为: /home/dawning/torque-2.1.7 1.1.2. 编译设置 #./configure --enable-docs --with-scp --enable-syslog 其中, 默认情况下,TORQUE 将可执行文件安装在/usr/local/bin 和/usr/local/sbin 下。其余的配置文件将安装在/var/spool/torque 下 默认情况下,TORQUE 不安装管理员手册,这里指定要安装。 默认情况下,TORQUE 使用rcp 来 copy 数据文件,官方强烈推荐使用scp,所以这里设定--with-scp. 默认情况下,TORQUE 不允许使用syslog,我们这里使用syslog。 1.1.3. 编译安装 # make # make install Server 端安装设置: 在 torque 的安装源文件根目录中,执行 #./torque.setup root 以root 作为 torque 的管理员账号创建作业队列。 计算节点(Client 端)的安装: 由于计算节点节点系统相同,因而可以用如下 SHELL script (脚本名字为 torque.install.sh)在 其余计算节点上安装: 创建torque.install.sh 脚本 #vi torque.install.sh #!/bin/sh cd /home/dawning/torque-2.1.7 make install 使用如下命令:npssh -on node1..32 sh /home/dawning/torque.install.sh 将在每个节点上安装TORQUE。 1 .1 .4 . TORQUE 配置 1.1.4.1 在计算节点上配置 TORQUE: 在每个计算节点,必须配置 M...