网格计算和SGE从概念上讲,网格很简单。它是执行任务的计算资源的集合。对用户而言,它就是一个大系统,提供单个切入点,以访问强大而分散的资源。用户将网格视作单个计算资源。资源管理软件(如SunGridEngine)接受由用户提交的作业,并根据资源管理策略将作业安排在网格内适当的系统上执行。用户可以一次提交数千个作业,而不必考虑它们在何处运行。什么是Clustergrids?网格的类型:Clustergrids,campusgridsandglobalgrids.集群网格(clustergrids)包括许多计算资源,SGE帮助我们将这些一起工作的资源合理地提供给一个项目或一个部门的用户。SGE的工作原理SunGridEngine软件为用户提供了向SunGridEngine系统提交要求计算的任务的方法,以透明地分配相关的工作负荷。用户可以向SunGridEngine系统提交批处理作业、交互式作业和并行作业。SunGridEngine用以下方式调解可用资源和作业需求。通过SunGridEngine系统提交作业的用户描述出作业需求的概况。此外,系统还要检索用户的身份以及他或她与项目或用户组的从属关系。用户提交作业的时间也将存储起来。准确地说,在队列被定为可以对新作业执行操作的那一刻,SunGridEngine系统就决定了适合该队列的作业,并立即分派具有最高优先级或等待时间最长久的作业。?SunGridEngine队列允许同时执行许多作业。SunGridEngine系统将尽量在负荷最小且最适合的队列中开始新的作业。为什么用SGE??用户:用户能够自由地在单一的控制节点上投放上千个的任务,而不必关心任务在哪个节点运行,这样就大大简化了用户的使用。?管理员:提供广泛的工具,用以监控投放的任务。SGE能做什么??系统接受用户所投放的任务,并基于最优的资源管理方案,将任务列队在适合的网格内系统上,等待运行。?SGE依据由管理者制定的规则,检测到网格内的所有可用资源,聚集资源,并在该网格内自动地最优地分配和路由资源。SGE怎样工作??接受用户投放的任务;?在任务运行以前,将任务放在一个存储区域;?发送任务到一个执行设备,并监控任务的运行;?运行结束时写回结果并记录运行日志。SGE的组成?节点(Hosts)?后台程序(Daemons)?队列(Queues)?用户命令(ClientCommands)SGE的组成?节点(Hosts)?MasterHosts?ExecutionHosts?AdministrationHosts?SubmitHosts?后台程序(Daemons)?队列(Queues)?用户命令(ClientCommands)SGE的组成?节点(Hosts)?后台程序(Daemons)?sge_qmaster–theMasterDaemon?sge_schedd–theSchedulerDaemon?sge_execd–theExecutionDaemon?sge_commd–theCommunicationDaemon?队列(Queues)?用户命令(ClientCommands)队列的概念?队列为任务提供服务;?SGE允许同时运行多个任务,系统会试着这最小负荷的合适队列开始新的任务;?在SGE中队列就是存放能在某一节点上运行的所有任务的容器。一个队列从某种方面也决定了所含任务的属性。用户命令用户命令是一组辅助程序命令。他可以帮助我们管理队列,提交和删除任务,检测任务的状态,中断/开始队列和任务。qacctqalterqconfqdelqholdqhoshqloginqmakeqmodqmonqresubqrlsqrshqselectqshqstatqsubqtcsh?qacct–此命令从群集日志文件中抽取任意帐户信息。?qalter–此命令更改已提交但正处于暂挂状态的作业的属性。?qconf–此命令为群集和队列配置提供用户界面。?qdel–用户、操作人员或管理人员可使用此命令向作业或其子集发送信号。?qhold–此命令阻止已提交作业的执行。?qhost–此命令显示SunGridEngine执行主机的状态信息。?qlogin–此命令启动telnet或类似的登录会话,并自动选择负荷较低并且较?为适合的主机。?qmake–此命令可取代标准的UNIXmake命令工具。它扩充了make的功能,能够将相互独立的make步骤分配到一组适合的机器。?qmod–此命令使拥有者可以暂停或启用队列(将信号发送给当前与此队列相关的所有活动进程)。?qmon–此命令提供了X-windowsMotif命令界面和监视工具。?qresub–此命令通过复制正在运行或暂挂的作业,创建新的作业。?qrls–此命令释放先前被阻止执行的作业,例如通过qhold(见上)阻止执行。?qrsh–此命令用途很多,比如:?提供通过SunGridEngine系统执...