CN101779189B

CN101779189B - 并行计算机中的主动电力管理的方法和装置

Info

Publication number: CN101779189B
Application number: CN2008801033522A
Authority: CN
Inventors: T·古丁; T·因格莱特; T·利布施; T·穆斯塔; D·雷德
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-08-17
Filing date: 2008-08-05
Publication date: 2013-01-09
Anticipated expiration: 2028-08-05
Also published as: US20090049313A1; CN101779189A; TW200917052A; KR20100041829A; JP4659138B2; KR101137073B1; EP2179359B1; EP2179359A1; JP2010537266A; WO2009024459A1; US7941681B2

Abstract

公开并行计算机中的主动电力管理，该并行计算机包括服务节点和多个计算节点，该服务节点经由带外服务网络连接至所述计算节点，每一计算节点包括计算机处理器和操作地耦合至该计算机处理器的计算机存储器。实施例包括通过该服务节点接收用以启动在该并行计算机中的计算节点的运算群组上的作业的用户指令，该指令包括所述计算节点的电力管理属性；通过该服务节点根据该运算群组的所述计算节点的所述电力管理属性设定该运算群组的每一计算节点的电力消耗比率，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；以及通过该服务节点启动该并行计算机的该运算群组的所述计算节点上的该作业。

Description

并行计算机中的主动电力管理的方法和装置

技术领域

本发明的领域为数据处理，或更具体地，为用于并行计算机中的主动电力管理的方法、装置和产品。

背景技术

常常将1948年的EDVCA(电子离散变量自动计算机)计算机系统的发展引用为计算机时代的开端。从那时起，计算机系统演化成极端复杂的器件。如今的计算机远比诸如EDVAC的早期系统复杂。计算机系统通常包括硬件与软件组件、应用、操作系统、处理器、总线、存储器、输入/输出器件等的组合。随着半导体处理和计算机架构中的进步推进计算机性能变得越来越高，更加复杂的计算机软件已演化以利用硬件的较高性能，从而导致如今的计算机系统远比仅仅几年前的计算机系统更强大。

并行计算为已经历进步的计算机技术领域。并行计算为多个处理器上同一任务(经分割且经特殊调适)的同时执行以便更快地获取结果。并行计算基于解决问题的处理通常可划分为可通过某种协调同时进行的较小任务的事实。

并行计算机执行并行算法。并行算法可经分割以在许多不同处理器件上一次执行一片段，接着在结束时再次放回在一起以得到数据处理结果。一些算法易于划分为片段。举例而言，分割检查一至十万的所有数字以明了哪些为质数的作业可通过将数字的子集指派至每一可用处理器，接着将肯定结果的清单放回在一起来完成。在本说明书中，执行平行程序的个别片段的多个处理器件被称作“计算节点”。并行计算机也由计算节点和其它处理节点(包括，例如，输入/输出(“I/O”)节点和服务节点)构成。

并行算法为有价值的，因为由于现代处理器工作的方式，经由并行算法执行一些种类的大计算工作快于经由串行(非平行)算法来执行。建构具有单一快处理器的计算机远难于具有许多慢处理器的吞吐量相同的计算机。同样存在串行处理器的潜在速度的特定理论极限。另一方面，每一并行算法具有串行部分且因此并行算法具有饱和点。在该点的后，增加更多处理器未产生更多吞吐量而仅增加开销和成本。

并行算法也经设计以优化并行计算机的节点之间数据通信所要求的另一资源。平行处理器通信存在两种方式，共享存储器或消息传递。共享存储器处理需要数据的额外锁定并强加额外处理器和总线循环的开销，以及还串行化算法的某部分。

消息传递处理使用高速数据通信网络和消息缓冲器，但此通信在数据通信网络上增加转移开销，以及消息缓冲器的额外存储器需要和节点之间数据通信中的延时。并行计算机的设计使用经特殊设计的数据通信链路，使得通信开销较小，但并行算法决定业务量。

许多数据通信网络架构用于并行计算机中的节点之间的消息传递。举例而言，可将计算节点在网络中组织为“环形”或“网格”。此外，可将计算节点在网络中组织为树。环形网络以具有环绕链路的三维网格连接节点。每一节点经由此环形网络连接至其六个相邻者，且每一节点由其在网格中的x，y，z坐标寻址。在树网络中，节点通常连接至二元树中：每一节点具有父代，和两个子代(尽管基于硬件配置，一些节点可仅具有零个子代或一个子代)。在使用环形和树网络的计算机中，两个网络通常彼此独立来实施，其具有独立路由电路、独立物理链路和独立消息缓冲器。

环形网络有助于点对点运算，但树网络通常在点对点通信中为低效率的。然而，树网络确实提供高带宽和所有计算节点同时参与的特定集合运算(collective operation)、消息传递操作的低延时。

因为并行计算机可包括在作业期间同时运算的成千上万计算节点，所以并行计算机可消耗大量电力。电提供商通常在消费者消耗大于特定量(峰值电力量)的电力量之后以高于正常的速率对消费者充电。归因于在作业期间同时运算的大量计算节点，并行计算机常常消耗多于峰值电力量。因而，读者将了解，并行计算机中的主动电力管理中存在改良空间。

发明内容

公开用于并行计算机中的主动电力管理的方法和装置。并行计算机包括服务节点和多个计算节点，服务节点经由带外服务网络连接至计算节点，每一计算节点包括计算机处理器和操作地耦合至计算机处理器的计算机存储器。实施例提供的方法包括通过服务节点接收用以启动在并行计算机中的计算节点的运算群组上的作业的用户指令，所述指令包括计算节点的电力管理属性；通过服务节点根据运算群组的计算节点的电力管理属性设定运算群组的每一计算节点的电力消耗比率，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；以及通过服务节点启动并行计算机的运算群组的计算节点上的作业。

实施例还包括一种用于并行计算机中的主动电力管理的装置，该并行计算机包含服务节点和多个计算节点，该服务节点经由带外服务网络连接至所述计算节点，每一计算节点包含计算机处理器和操作地耦合至该计算机处理器的计算机存储器，所述装置包括：用于通过该服务节点接收用以启动在该并行计算机中的计算节点的运算群组上的作业的用户指令的模块，该指令包括用于所述计算节点的电力管理属性；用于通过该服务节点根据该运算群组的所述计算节点的所述电力管理属性设定该运算群组的每一计算节点的电力消耗比率的模块，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；以及用于通过该服务节点启动该并行计算机的该运算群组的所述计算节点上的该作业的模块。

根据附图中所说明的本发明示例性实施例的以下更特定描述，本发明的前述和其它目标、特征和优势将显而易见，在附图中，相似标号大体表示本发明的示例性实施例的相似部件。

附图说明

图1根据本发明的实施例说明用于并行计算机中的主动电力管理的示例性系统。

图2根据本发明的实施例阐述在并行计算机中的主动电力管理中有用的示例性计算节点的方块图。

图3根据本发明的实施例阐述包含在并行计算机中的主动电力管理中有用的示例性服务节点的自动计算器械的方块图。

图4A根据本发明的实施例说明在能够在并行计算机中进行主动电力管理的系统中有用的示例性点对点适配器。

图4B根据本发明的实施例说明在能够在并行计算机中进行主动电力管理的系统中有用的示例性全局合并网络适配器。

图5根据本发明的实施例阐述说明被优化用于在能够在并行计算机中进行主动电力管理的系统中有用的点对点运算的示例性数据通信网络的线图。

图6根据本发明的实施例阐述说明被优化用于在能够在并行计算机中进行主动电力管理的系统中有用的集合运算的示例性数据通信网络的线图。

图7根据本发明的实施例阐述说明用于并行计算机中的主动电力管理的示例性方法的流程图。

图8根据本发明的实施例阐述说明用于并行计算机中的主动电力管理的另一示例性方法的流程图。

具体实施方式

参照附图描述根据本发明的实施例的用于并行计算机中主动电力管理的示例性方法、装置和计算机程序产品，以图1开始。图1根据本发明的实施例说明用于并行计算机中主动电力管理的示例性系统。图1的系统包括并行计算机(100)、数据存储器件(118)形式的计算机非易失性存储器、打印机(120)形式的计算机输出器件，和计算机终端(122)形式的计算机输入/输出器件。图1的实例中的并行计算机(100)包括多个计算节点(102)。

计算节点(102)经耦合用于通过包括高速以太网络(174)、联合测试行动小组(Joint Test Action Group，“JTAG”)网络(104)、被优化用于集合运算的全局合并网络(106)，和被优化用于点对点运算的环形网络(108)的若干独立数据通信网络的数据通信。全局合并网络(106)为包括连接至计算节点以便将计算节点组织为树的数据通信链路的数据通信网络。每一数据通信网络通过计算节点(102)之间的数据通信链路来实施。数据通信链路提供用于并行计算机的计算节点之间的平行运算的数据通信。

另外，将并行计算机的计算节点(102)组织为计算节点的至少一运算群组(132)。计算节点的运算群组为并行计算机中参与执行作业的所有计算节点的子集。运算群组可经配置用于集合平行运算或点对点运算。

在运算群组的计算节点之间以数据通信来实施集合运算。集合运算为涉及运算群组的所有计算节点的那些函数。集合运算为由计算节点的运算群组中的所有计算节点同时(也即，在近似同一时间)执行的运算，消息传递计算机程序指令。此运算群组可包括并行计算机(100)中的所有计算节点或所有计算节点的子集。常常根据点对点运算建立集合运算。集合运算要求运算群组内的所有计算节点的所有处理调用具有匹配自变量的相同集合运算。“广播”为用于在运算群组的计算节点之间移动数据的集合运算的实例。“归约”运算为对分布在运算群组的计算节点之间的数据执行算术或逻辑函数的集合运算的实例。运算群组可实施为(例如)MPI“通信器”。

“MPI”指代“消息传递接口”(先前技术并行通信库)，用于并行计算机上的数据通信的计算机程序指令的模块。可经改良用于与根据本发明的实施例的系统一起使用的先前技术并行通信库的实例包括MPI和“并行虚拟机”(PVM)库。PVM由田纳西大学(University of Tennessee)、橡树岭国家实验室(The Oak Ridge National Laboratory)和埃默里大学(EmoryUniversity)开发。MPI由MPI论坛(具有来自定义和维护MPI标准的许多组织的代表的开放群组)发布。在编写时，MPI为用于在分布式存储器并行计算机上运行并行程序的计算节点之间通信的非官方标准。本说明书为易于解释有时使用MPI术语，但因而MPI的使用并非本发明的要求或限制。

一些集合运算具有在运算群组中的特定计算节点上执行的单一发起或接收处理。举例而言，在“广播”集合运算中，计算节点上将数据分散至所有其它计算节点的处理为发起处理。举例而言，在“收集”运算中，计算节点上接收来自其它计算节点的所有数据的处理为接收处理。这样的发起或接收处理在上面执行的计算节点被称作逻辑根。

大多数集合运算为四个基本运算的变型或组合：广播、收集、散布和归约。在由MPI论坛发布的MPI标准中定义了这些集合运算的接口。然而，在MPI标准中未定义用于执行集合运算的算法。在广播运算中，所有处理指定其缓冲器内容将被发送的同一根处理。除根以外的处理指定接收缓冲器。在该运算的后，所有缓冲器含有来自根处理的消息。

在散布运算中，逻辑根将根上的数据划分为区段并且将不同区段分散至运算群组中的每一计算节点。在散布运算中，所有处理通常指定同一接收计数。发送自变量仅对根处理有意义，其缓冲器实际上含有具有给定数据类型的发送计数＊N个元素，其中N为计算节点的给定群组中的处理的数目。发送缓冲器经划分且散布至所有处理(包括逻辑根上的处理)。对于每一计算节点指派被称为“层级”(rank)的顺序识别符。在该运算的后，根已将发送计数数据元素以增加层级次序发送至每一处理。层级0接收来自发送缓冲器的第一发送计数数据元素。层级1接收来自发送缓冲器的第二发送计数数据元素，依此类推。

收集运算为与散布运算的描述完全相反的多对一集合运算。也即，收集为多对一集合运算，其中将一数据类型的元素从分层级的计算节点收集至根节点中的接收缓冲器中。

归约运算也为多对一集合运算，其包括对两个数据元素执行的算术或逻辑函数。所有处理指定同一“计数”和同一算术或逻辑函数。在归约之后，所有处理将来自计算机节点发送缓冲器的计数数据元素发送至根处理。在归约运算中，来自相应发送缓冲器位置的数据元素通过算术或逻辑运算成对组合以在根处理的接收缓冲器中产生单一相应元素。可在运行时定义应用特定归约运算。并行通信库可支持预定义运算。举例而言，MPI提供以下预定义归约运算：

除计算节点之外，并行计算机(100)还包括经由数据通信网络(174)之一耦合至计算节点(102)的输入/输出(“I/O”)节点(110、114)。I/O节点(110、114)提供计算节点(102)与I/O器件(118、120、122)之间的I/O服务。I/O节点(110、114)经由局域网络(“LAN”)(130)连接，用于与I/O器件(118、120、122)的数据通信。并行计算机(100)还包括经由网络(104)中之一耦合至计算节点的服务节点(116)。服务节点(116)提供对多个计算节点共同的服务，将程序加载至计算节点中，开始计算节点上的程序执行，提取对计算节点的程序运算的结果等等。服务节点(116)执行服务应用(124)且经由在计算机终端(122)上执行的服务应用接口(126)与用户(128)通信。

如下文在本说明书中更详细描述，图1的系统根据本发明的实施例操作大体上用于并行计算机中的主动电力管理。根据本发明的实施例的并行计算机中的电力管理大体上描述为主动的，因为电力根据并行计算机中的未来问题、需要或改变的预期来管理。这种主动管理与反应性电力管理(未预期并行计算机中的未来问题、需要或改变的电力管理)形成对比。图1的系统能够通过服务节点(116)接收用以启动在并行计算机(100)中的计算节点(102)的运算群组(132)上的作业的用户(128)指令；通过服务节点(116)根据运算群组(132)的计算节点(102)的电力管理属性设定运算群组(132)的每一计算节点(102)的电力消耗比率，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；和通过服务节点(116)启动并行计算机(100)的运算群组(132)的计算节点(102)上的作业。

待由并行计算机执行的作业为应用的执行的实例。此应用包括用于运算群组中的每一计算节点的计算机程序指令。接着，执行作业包括执行应用的计算机程序指令。

启动该作业的用户指令包括计算节点的电力管理属性。电力管理属性为由服务节点用以支配运算群组的一个或多个计算节点的可变电力消耗功能性的参数。根据图1的实例的典型计算节点允许处理器的电力消耗随作业而变化且允许存储器的电力消耗随作业而变化。根据本发明的实施例的电力管理属性包括并行计算机的运算群组中的计算节点的电力消耗比率和闲置循环的时间长度。电力消耗比率为用于在计算机程序指令的执行期间控制计算节点的电力消耗的参数。电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率。每一比率被表述为执行循环与闲置循环的比率。执行循环为计算机存储器或计算机处理器执行指令的时期。也即，执行循环为计算机存储器或计算机处理器活动的时期。对比而言，闲置循环为计算机处理器或计算机存储器闲置，也即，未执行任何指令的时期。当闲置时，计算机处理器或计算机存储器都不消耗电力。

如上文所提及，电力管理属性还包括闲置循环的时间长度。闲置循环的时间长度越长，计算节点中的计算机处理器或计算机存储器在此闲置循环期间闲置越长。服务节点可在设定电力消耗比率时设定闲置循环的时间长度。

电力管理属性可为作业特定的。也即，用户可提供一作业的电力管理属性的特定集合和另一作业的电力管理属性的完全不同集合。在替代性实施例中，用户可提供作业的群组的电力管理属性的一集合或提供在规则基础上待应用的电力管理属性的一集合。举例而言，用户可提供待应用于在夏季月份期间执行的所有作业的电力管理属性的一集合和在该年剩余时间期间待应用的电力管理属性的一集合。

图1的服务节点(116)包括服务应用(124)、能够通过服务节点(116)接收用以启动在并行计算机(100)中的计算节点(102)的运算群组(132)上的作业的用户(128)指令的计算机程序指令的模块，该指令包括计算节点的电力管理属性。接收用以启动在并行计算机(100)中的计算节点的运算群组上的作业的用户指令可通过接收由用户(128)经由服务应用接口(126)所提供的图形用户接口(“GUI”)从终端(122)输入的电力管理属性来进行。此GUI可经特殊配置以接受除待应用于计算机处理器和计算机存储器电力消耗比率两者的执行循环与闲置循环的单一比率之外的闲置循环的时间长度。或者，GUI可经特殊配置以接受除执行循环与闲置循环的两个独特比率之外的闲置循环的时间长度：待设定为计算机处理器电力消耗比率的一比率和待设定为计算机存储器电力消耗比率的一比率。

图1的服务应用(124)还包括能够通过服务节点(116)根据运算群组的计算节点(102)的电力管理属性设定运算群组的每一计算节点的包括计算机处理器电力消耗比率和计算机存储器电力消耗比率的电力消耗比率的计算机程序指令。设定运算群组(132)的每一计算节点(102)的电力消耗比率可通过以电力消耗比率配置运算群组(132)中的计算节点(102)中的每一个来进行。也即，以电力消耗比率配置计算节点中的每一个内的计算机存储器。

在图1的系统中，示例性服务节点(116)经由带外服务网络，JTAG网络(104)设定电力管理属性。尽管图1的服务网络被描绘为JTAG网络，但具有本领域技术的读者将认识到，服务网络可实施为能够使能服务节点(116)与计算节点(102)之间的带外通信的任何通信链路。这种带外通信链路可包括(例如)内置集成电路(“I2C”)总线、单总线(1-Wire bus)、外围组件互连(“PCI”)总线、系统管理总线(“SMB”)、串行外围接口(“SPI”)、智能平台管理总线(“IPMB”)等等，如本领域普通技术人员将想到的。

图1的服务应用(124)还包括能够通过服务节点(116)启动并行计算机(100)的运算群组(132)的计算节点(102)上的作业的计算机程序指令。启动并行计算机(100)的运算群组(132)的计算节点(102)上的作业可通过以其作业特定计算机程序指令配置运算群组(132)中的每一计算节点(102)并且将通知发送至运算群组(132)中的计算节点(102)以执行计算机程序指令来进行。

组成图1中所说明的示例性系统的节点、网络和I/O器件的配置仅用于解释的目的，并非用于限制本发明。根据本发明的实施例的能够在并行计算机中进行主动电力管理的数据处理系统可包括图1中未展示的额外节点、网络、器件和架构，如本领域普通技术人员所想到的。尽管图1的实例中的并行计算机(100)包括十六个计算节点(102)，但读者将注意到，根据本发明的实施例的能够在并行计算机中进行主动电力管理的并行计算机可包括任何数目的计算节点。除以太网和JTAG之外，这些数据处理系统中的网络还可支持包括(例如)TCP(传输控制协议)、IP(因特网协议)和本领域普通技术人员将想到的其它协议的许多数据通信协议。本发明的各种实施例可在除图1中所说明的硬件平台之外的多种硬件平台上实施。

根据本发明的实施例的并行计算机中的主动电力管理可在包括多个计算节点的并行计算机上实施。实际上，这种计算机可包括成千上万个这种计算节点。每一计算节点自身又为由一个或多个计算机处理器、其自己的计算机存储器及其自己的输入/输出适配器构成的一种计算机。因此，为进一步解释，图2根据本发明的实施例阐述在并行计算机中的主动电力管理中有用的示例性计算节点的方块图。图2的计算节点(152)包括一个或多个计算机处理器(164)以及随机存取存储器(“RAM”)(156)。处理器(164)经由高速存储器总线(154)连接至RAM(156)以及经由总线适配器(194)和扩展总线(168)连接至计算节点(152)的其它组件。RAM(156)中存储有应用(158)，使用并行算法进行并行、用户级数据处理的计算机程序指令的模块。图2的应用(158)分配用于存储传输至另一计算节点的消息的应用缓冲器。

RAM(156)中还存储有消息传递模块(160)，在计算节点之间进行包括点对点运算以及集合运算的并行通信的计算机程序指令库。应用程序(158)通过调用消息传递模块(160)中的软件例程来执行集合运算。并行通信例程的库可使用诸如C程序设计语言的传统程序设计语言和使用编写在两个独立数据通信网络上的节点之间发送和接收数据的并行通信例程的传统程序设计方法从头开始被开发用于根据本发明的实施例的系统中。或者，现有先前技术库可经改进以根据本发明的实施例而操作。先前技术的并行通信库的实例包括“消息传递接口”(“MPI”)库和“并行虚拟机”(“PVM”)库。

RAM(156)中还存储有操作系统(162)，用于应用程序存取计算节点的其它资源的计算机程序指令和例程的模块。并行计算机的计算节点中的应用程序和并行通信库执行无用户登入和无安全性问题的单一执行线程是典型的，因为线程经授权以完成对节点的所有资源的存取。待由并行计算机中的计算节点上的操作系统执行的作业的数量和复杂度因此更小，并且相比具有同时执行的许多线程的串行计算机上的操作系统的作业更加不复杂。另外，图2的计算节点(152)上不存在视频I/O，降低对操作系统的需求的另一因素。因此，该操作系统相比通用计算机的操作系统更加轻便，如缩减版本，或经特殊开发用于在特定并行计算机上操作的操作系统。可有用地经改进、简化用于在计算节点中使用的操作系统包括UNIXTM、Linux_TM、Microsoft XP_TM、

IBM的

和本领域普通技术人员将想到的其它操作系统。

RAM(156)中还存储有电力消耗比率(712)，其包括计算机处理器电力消耗比率(714)和计算机存储器电力消耗比率(716)。电力消耗比率为用于在计算机程序指令的执行期间控制计算节点的电力消耗的参数。电力消耗比率(712)由服务节点设定。在应用(158)的执行期间，计算节点(156)根据电力消耗比率(712)而操作。

图2的示例性计算节点(152)包括用于实施与并行计算机的其它节点的数据通信的若干通信适配器(172、176、180、188)。这种数据通信可经由RS-232连接，经由诸如USB的外部总线，经由诸如IP网络的数据通信网络，和以本领域普通技术人员将想到的其它方式串行地进行。通信适配器实施计算机直接或经由网络发送数据通信至另一计算机的数据通信的硬件级。在根据本发明的实施例的用于并行计算机中主动电力管理的系统中有用的通信适配器的实例包括用于有线通信的调制解调器、用于有线网络通信的以太网(IEEE 802.3)适配器，和用于无线网络通信的802.11b适配器。

图2的实例中的数据通信适配器包括将用于数据通信的实例计算节点(152)耦合至千兆位以太网(Gigabit Ethernet)(174)的千兆位以太网适配器(172)。千兆位以太网为IEEE 802.3标准中定义的网络传输标准，其提供每秒10亿位(千兆位)的数据速率。千兆位以太网为在多模光纤电缆、单模光纤电缆或非屏蔽双绞线上操作的以太网的变型。

图2的实例中的数据通信适配器包括将用于数据通信的实例计算节点(152)耦合至JTAG主控电路(178)的JTAG受控电路(176)。JTAG为用于名为标准测试存取端口和边界扫描架构(其用于使用边界扫描测试印刷电路板的测试存取端口)的IEEE 1149.1标准的常用名。此时，JTAG经广泛调适，使得边界扫描或多或少与JTAG同义。JTAG不仅用于印刷电路板，而且用于进行集成电路的边界扫描，并且还用作用于除错嵌入式系统，提供进入系统的便利“后门”的机构。图2的实例计算节点可满足如下所有三个条件：其通常包括安装于印刷电路板上的一个或多个集成电路并且可实施为具有其自己的处理器、其自己的存储器及其自己的I/O能力的嵌入式系统。经由JTAG受控(176)的JTAG边界扫描可有效地配置计算节点(152)中的处理器寄存器和存储器用于根据本发明的实施例的并行计算机中的主动电力管理。

图2的实例中的数据通信适配器包括将用于数据通信的实例计算节点(152)耦合至网络(108)的点对点适配器(180)，对于诸如配置为三维环形或网格的网络，所述网络(108)最佳地用于点对点消息传递操作。点对点适配器(180)经由六个双向链路提供三个通信轴(x、y和z)上的六个方向上的数据通信：+x(181)、-x(182)、+y(183)、-y(184)、+z(185)和-z(186)。

图2的实例中的数据通信适配器包括将用于数据通信的实例计算节点(152)耦合至网络(106)的全局合并网络适配器(188)，所述网络(106)最佳地用于配置为(例如)二元树的全局合并网络上的集体消息传递操作全局。全局合并网络适配器(188)提供经由三个双向链路的数据通信：到子节点(190)的两个和到父节点(192)的一个。

实例计算节点(152)包括两个算术逻辑单元(“ALU”)。ALU(166)为处理器(164)的组件，并且独立ALU(170)专用于在执行归约运算的算术和逻辑函数中使用的全局合并网络适配器(188)的独占式用途。并行通信库(160)中的归约例程的计算机程序指令可将用于算术或逻辑函数的指令锁存至指令寄存器(169)中。当归约运算的算术或逻辑函数为“求总和”或“逻辑或”时，举例而言，全局合并网络适配器(188)可通过使用处理器(164)中的ALU(166)或(通常更快)通过使用专用ALU(170)来执行算术或逻辑运算。

因此，为进一步解释，图3根据本发明的实施例阐述包含在并行计算机中的主动电力管理中有用的示例性服务节点(252)的自动计算器械的方块图。图3的服务节点(252)包括至少一计算机处理器(256)或“CPU”以及经由高速存储器总线(266)和总线适配器(268)连接至处理器(256)和连接至该服务节点的其它组件的随机存取存储器(268)(“RAM”)。

RAM(268)中存储有服务应用(124)，能够根据本发明的实施例在并行计算机中进行主动管理电力的计算机程序指令的模块。图3的服务应用(124)包括能够进行以下操作的计算机程序指令：通过服务节点(252)接收启动并行计算机中的计算节点的运算群组上的作业的用户指令(706)，该指令包括计算节点的电力管理属性(708)；通过服务节点根据运算群组的计算节点的电力管理属性设定运算群组的每一计算节点的包括计算机处理器电力消耗比率和计算机存储器电力消耗比率的电力消耗比率；以及通过服务节点启动并行计算机的运算群组的计算节点上的作业。

RAM(268)中还存储有操作系统(254)。根据本发明的实施例在服务节点中有用的操作系统包括UNIX_TM、Linux_TM、Microsoft Vista_TM、MicrosoftXP_TM、

IBM的

和本领域普通技术人员将想到的其它操作系统。在RAM(268)中展示了图3的实例中的操作系统(254)和媒体服务器应用程序(202)，但这种软件的许多组件通常也存储于非易失性存储器中，例如在磁盘驱动器(270)上。图3的服务节点(252)包括总线适配器(268)，含有用于高速总线(前端总线(262)、视频总线(264)和存储器总线(266))的驱动电子设备，以及用于较慢扩充总线(260)的驱动电子设备的计算机硬件组件。根据本发明的实施例在并行计算机中的主动电力管理中有用的总线适配器的实例包括Intel北桥(Northbridge)、Intel存储器控制器集线器、Intel南桥(Southbridge)和Intel I/O控制器集线器。根据本发明的实施例在并行计算机中的主动电力管理中有用的扩充总线的实例包括工业标准架构(“ISA”)总线和外围组件互连(“PCI”)总线。

图3的服务节点(252)包括经由扩充总线(260)和总线适配器(258)耦合至处理器(256)和服务节点(252)的其它组件的磁盘驱动器适配器(272)。磁盘驱动器适配器(272)将非易失性数据存储器连接至磁盘驱动器(270)形式的服务节点(252)。在服务节点中有用的磁盘驱动器适配器包括集成驱动电子设备(“IDE”)适配器、小型计算机系统接口(“SCSI”)适配器和本领域普通技术人员将想到的其它适配器。另外，非易失性计算机存储器可对服务节点实施为光盘驱动器、电可擦除可编程只读存储器(所谓的“EEPROM”或“闪速”存储器)、RAM磁盘驱动器等等，如本领域普通技术人员将想到的。

图3的实例服务节点(252)包括一个或多个输入/输出(“I/O”)适配器(278)。服务节点中的I/O适配器经由(例如)用于控制对诸如计算机显示屏幕的显示器件的输出以及来自诸如键盘和鼠标的用户输入器件(281)的用户输入的软件驱动程序和计算机硬件来实施面向用户的输入/输出。图3的实例服务节点(252)包括视频适配器(209)，其为经特殊设计用于对诸如显示屏幕或计算机监视器的显示器件(280)的图形输出的I/O适配器的实例。视频适配器(209)经由高速视频总线(264)、总线适配器(258)和同样为高速总线的前端总线(262)连接至处理器(256)。

图3的示例性服务节点(252)包括用于与其它计算机(282)数据通信和用于与数据通信网络(200)数据通信的通信适配器(267)。这种数据通信可经由RS-232连接，经由诸如通用串行总线(“USB”)的外部总线，经由诸如IP数据通信网络的数据通信网络，和以本领域普通技术人员将想到的其它方式串行地进行。通信适配器实施一计算机直接或经由数据通信网络发送数据通信至另一计算机的数据通信的硬件级。根据本发明的实施例对于并行计算机中的主动电力管理有用的通信适配器的实例包括用于有线拨号通信的调制解调器、用于有线数据通信网络通信的以太网(IEEE 802.3)适配器，和用于无线数据通信网络通信的802.11适配器。

为进一步解释，图4A根据本发明的实施例说明在能够在并行计算机中进行主动电力管理的系统中有用的示例性点对点适配器(180)。点对点适配器(180)经设计用于被优化用于点对点运算的数据通信网络(以三维环形或网格组织计算节点的网络)中。图4A的实例中的点对点适配器(180)经由到达和来自-x方向(182)上的下一节点以及到达和来自+x方向(181)上的下一节点的四个单向数据通信链路沿x轴提供数据通信。点对点适配器(180)还经由到达和来自-y方向(184)上的下一节点以及到达和来自+y方向(183)上的下一节点的四个单向数据通信链路沿y轴提供数据通信。图4A中的点对点适配器(180)经由到达和来自-z方向(186)上的下一节点以及到达和来自+z方向(185)上的下一节点的四个单向数据通信链路沿z轴提供数据通信。

为进一步解释，图4B根据本发明的实施例说明在能够在并行计算机中进行主动电力管理的系统中有用的示例性全局合并网络适配器(188)。全局合并网络适配器(188)经设计用于被优化用于集合运算的网络(以二元树组织并行计算机的计算节点的网络)中。图4B的实例中的全局合并网络适配器(188)经由四个单向数据通信链路(190)提供到达和来自两个子节点的数据通信。全局合并网络适配器(188)还经由两个单向数据通信链路(192)提供到达和来自父节点的数据通信。

为进一步解释，图5根据本发明的实施例阐述说明被优化用于在能够在并行计算机中进行主动电力管理的系统中有用的点对点运算的示例性数据通信网络(108)的线图。在图5的实例中，点表示并行计算机的计算节点(102)，并且点之间的虚线表示计算节点之间的数据通信链路(103)。数据通信链路(103)是通过类似于如图4A中所说明的点对点数据通信适配器的点对点数据通信适配器，通过三个轴(x、y和z)上以及到达和来自六个方向(+x(181)、-x(182)、+y(183)、-y(184)、+z(185)和-z(186))的数据通信链路来实施。链路和计算节点由被优化用于点对点运算的这个数据通信网络组织成三维网格(105)。网格(105)具有每一轴上连接网格(105)的相对侧上的在网格(105)中的最外计算节点的环绕链路。这些环绕链路形成环形(107)的部分。环形中的每一计算节点具有位于环形中由x、y、z坐标的集合独特指定的位置。读者将注意到，y和z方向上的环绕链路为清楚起见已被省略，但以类似于x方向上所说明的环绕链路的方式被配置。为解释清楚起见，说明仅具有27个计算节点的图5的数据通信网络，但读者将认识到，根据本发明的实施例被优化用于在并行计算机中的主动电力管理中使用的点对点运算的数据通信网络可仅含有少数计算节点或可含有成千上万计算节点。

为进一步解释，图6根据本发明的实施例阐述说明被优化用于在能够在并行计算机中进行主动电力管理的系统中有用的集合运算的示例性数据通信网络(106)的线图。图6的实例数据通信网络包括连接至计算节点以便将计算节点组织为树的数据通信链路。在图6的实例中，点表示并行计算机的计算节点(102)，以及点之间的虚线(103)表示计算节点之间的数据通信链路。数据通信链路是通过类似于(例如)图4B中所说明的全局合并网络适配器的全局合并网络适配器来实施，每一节点通常提供到达和来自两个子节点的数据通信以及到达和来自父节点的数据通信，一些节点例外。二元树(106)中的节点可表征为物理根节点(202)、分支节点(204)和叶节点(206)。根节点(202)具有两个子代但无父代。叶节点(206)均具有父代，但叶节点无子代。分支节点(204)均具有父代和两个子代。由此，链路和计算节点由被优化用于集合运算的该数据通信网络组织成二元树(106)。为解释清楚起见，说明图6的数据通信网络仅具有31个计算节点，但读者将认识到，根据本发明的实施例被优化用于在用于并行计算机中的主动电力管理中的系统中使用的集合运算的数据通信网络可仅含有少数计算节点或可含有成千上万计算节点。

在图6的实例中，对树中的每一节点指派被称作“层级”(250)的单元识别符。节点的层级独特地识别用于在树网络中的点对点和集合运算两者中使用的树网络中的节点的位置。该实例中的层级被指派为整数，以0指派至根节点(202)开始，1指派至树的第二层中的第一节点，2指派至树的第二层中的第二节点，3指派至树的第三层中的第一节点，4指派至树的第三层中的第二节点等等。为易于说明，这里仅展示树的前三层的层级，但树网络中的所有计算节点被指派有唯一层级。

为进一步解释，图7根据本发明的实施例阐述说明用于并行计算机中主动电力管理的示例性方法的流程图。并行计算机包括组织为运算群组(132)的多个计算节点(102)。并行计算机还包括经由诸如JTAG网络(图1上的104)的带外服务网络连接至计算节点(102)的服务节点(116)。每一计算节点(102)包括计算机处理器和操作地耦合至计算机处理器的计算机存储器。在一些实施例中，多个计算节点(102)是通过多个数据通信网络连接以用于数据通信。多个数据通信网络可包括被优化用于点对点数据通信的数据通信网络(图1上的104)。多个数据通信网络还可包括被优化用于集合运算的数据通信网络(图1上的106)。

图7的方法包括通过服务节点(116)接收(702)用以启动在并行计算机中的计算节点(102)的运算群组(132)上的作业(704)的用户指令(706)，该指令(706)包括计算节点(102)的电力管理属性(708)。通过服务节点(116)接收(702)用以启动在并行计算机中的计算节点(102)的运算群组(132)上的作业(704)的用户指令(706)(指令(706)包括计算节点(102)的电力管理属性(708))包括(例如)接收电力消耗比率，包括计算机处理器电力消耗比率和计算机存储器电力消耗比率的执行循环和闲置循环，以及闲置循环的时间长度。

接收(702)用以启动在并行计算机(100)中的计算节点的运算群组上的作业(704)的用户指令(706)可通过接收由用户(128)从终端(122)输入至由服务应用接口(126)提供的图形用户接口(“GUI”)中的电力管理属性来进行。这种GUI可被特定地配置以除了待应用于计算机处理器和计算机存储器电力消耗比率两者的执行循环与闲置循环的单一比率之外还接受闲置循环的时间长度。或者，GUI可被特定地配置以除了执行循环与闲置循环的两个相异比率(待设定为计算机处理器电力消耗比率的一比率和待设定为计算机存储器电力消耗比率的一比率)之外还接受闲置循环的时间长度。

图7的方法还包括通过服务节点(116)根据运算群组(132)的计算节点(102)的电力管理属性(708)设定(710)运算群组(132)的每一计算节点(102)的电力消耗比率(712)，所述电力消耗比率(712)包括计算机处理器电力消耗比率(716)和计算机存储器电力消耗比率(714)。可通过用所述电力消耗比率配置运算群组(132)中的计算节点(102)中的每一个来进行通过服务节点(116)根据运算群组(132)的计算节点(102)的电力管理属性(708)设定(710)运算群组(132)的每一计算节点(102)的包括计算机处理器电力消耗比率(716)和计算机存储器电力消耗比率(714)的电力消耗比(712)。也即，用所述电力消耗比率配置计算节点中的每一个内的计算机存储器。

在图7的方法中，电力消耗比率(712)表述为执行循环(718、722)与闲置循环(720、724)的比率。执行循环为计算机存储器或计算机处理器执行指令的时期。也即，执行循环为计算机存储器或计算机处理器活动的时期。对比而言，闲置循环为计算机处理器或计算机存储器闲置，也即，未执行任何指令的时期。当闲置时，计算机处理器或计算机存储器都不消耗电力。考虑用户(128)提供以下电力消耗比率作为电力管理属性(708)的实例：

●计算机处理器电力消耗比率＝1/10

●计算机存储器电力消耗比率＝2/5

在服务节点设定计算节点中的电力消耗比率并启动计算节点上的作业的后，计算机处理器将执行指令持续一个循环接着闲置十个循环。计算机存储器将执行指令持续两个循环接着闲置五个循环。

在图7的方法中，设定(710)电力消耗比率(712)包括设定闲置循环的时间长度(730)。设定闲置循环的时间长度(730)可通过以时间长度(730)配置计算节点中的每一个中的计算机存储器来进行。闲置循环的时间长度越长，计算节点中的计算机处理器或计算机存储器在这个闲置循环期间闲置越长。在图7的实例中，将闲置循环时间长度(730)设定为10微秒。也即，计算机处理器或计算机存储器闲置的每一循环持续10微秒。

在图7的实例中，计算机处理器电力消耗比率(714)可等于计算机存储器电力消耗比率(716)。也即，用户可提供两个电力消耗比率(714、716)的单一比率作为电力管理属性(708)的部分。或者，用户可针对每一电力消耗比率选择不同比率。在此状况下，计算机处理器电力消耗比率(716)不等于计算机存储器电力消耗比率(714)。允许用户明确地设定电力消耗比率(714、716)能够并行计算机中进行电力消耗的精确控制。

图7的方法还包括通过服务节点(116)启动(726)并行计算机的运算群组(132)的计算节点(102)上的作业(704)。启动(726)计算节点(102)上的作业(704)可通过以运算群组(132)中的每一计算节点(102)的作业特定计算机程序指令配置运算群组(132)中的每一计算节点(102)并且将通知发送至运算群组(132)中的计算节点(102)以执行计算机程序指令来进行。

为进一步解释，图8根据本发明的实施例阐述说明用于并行计算机中的主动电力管理的另一示例性方法的流程图。图8的方法类似于图7的方法，因为图8的方法包括通过服务节点(116)接收(702)用以启动在并行计算机中的计算节点(102)的运算群组(132)上的作业(704)的用户指令(706)，该指令(706)包括计算节点(102)的电力管理属性(708)；通过服务节点(116)根据运算群组(132)的计算节点(102)的电力管理属性(708)设定(710)运算群组(132)的每一计算节点(102)的电力消耗比率(712)，所述电力消耗比率(712)包括计算机处理器电力消耗比率(716)和计算机存储器电力消耗比率(714)；以及通过服务节点(116)启动(726)并行计算机的运算群组(132)的计算节点(102)上的作业(704)。

图8的方法不同于图7的方法，因为图8的方法还包括由用户(128)建立(802)电力管理属性(708)。在图8的方法中，建立(802)电力管理属性(708)是通过在作业的至少一先前执行(804)期间监视并行计算机的运算群组(132)的计算节点(102)的电力消耗来进行。建立电力管理属性以将在作业的执行期间由并行计算机消耗的电力量减少至低于预定义阈值的量。主动管理并行计算机的电力消耗的系统中的这种预定义阈值通常为峰值电力，电提供商以更高速率对用户充电的电力量。尽管建立电力消耗比率在这里描述为单一步骤，但具有本领域技术的读者将即刻认识到，用户可在建立电力管理属性(708)之前在许多作业执行期间监视计算节点的电力消耗。

在用于并行计算机中的主动电力消耗的完整功能性计算机系统的背景下较大程度地描述了本发明的实施例。然而，具有本领域技术的读者将认识到，本发明也可在安置在信号承载介质上以用于与任何适合的数据处理系统一起使用的计算机程序产品中具体化。这种信号承载介质可为用于机器可读信息的传输介质或可记录介质，其包括磁性介质、光学介质或其它适合的介质。可记录介质的实例包括硬盘驱动机中的磁盘或磁碟、用于光学驱动机的压缩盘、磁带和本领域普通技术人员将想到的其它介质。传输介质的实例包括用于语音通信的电话网络以及诸如EthernetsTM和以因特网协议通信的网络和全球信息网的数字数据通信网络，以及诸如根据IEEE

802.11规范族实施的网络的无线传输介质。本领域普通技术人员将即刻认识到，具有适合的编程构件的任何计算机系统将能够执行如在程序产品中实现的本发明的方法的步骤。本领域普通技术人员将即刻认识到，尽管本说明书中所描述的示例性实施例中的一些是针对安装在计算机硬件上并且在计算机硬件上执行的软件，但实施为固件或硬件的替代性实施例也在本发明的范畴内。

从前述描述将理解，可在未脱离本发明的真实精神的情况下对本发明的各种实施例进行修改和改变。本说明书中的描述仅用于说明的目的，而不应在限制性意义上被解释。本发明的范围仅受以下权利要求的语言限制。

为了避免疑虑，在说明书和权利要求中使用的术语“包括”不应该理解为“仅由...组成”的含义。

Claims

1.一种在并行计算机中的主动电力管理的方法，该并行计算机包含服务节点和多个计算节点，该服务节点经由带外服务网络连接至所述计算节点，每一计算节点包含计算机处理器和操作地耦合至该计算机处理器的计算机存储器，该方法包含：

通过该服务节点接收用以启动在该并行计算机中的计算节点的运算群组上的作业的用户指令，该指令包括用于所述计算节点的电力管理属性；

通过该服务节点根据该运算群组的所述计算节点的所述电力管理属性设定该运算群组的每一计算节点的电力消耗比率，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；以及

通过该服务节点启动该并行计算机的该运算群组的所述计算节点上的该作业。

2.如权利要求1的方法，其中所述电力消耗比率进一步包含执行循环与闲置循环的比率。

3.如权利要求2的方法，其中设定电力消耗比率进一步包含设定所述闲置循环的时间长度。

4.如权利要求1、2或3的方法，其中该计算机处理器电力消耗比率等于该计算机存储器电力消耗比率。

5.如权利要求1、2或3的方法，其中该计算机处理器电力消耗比率不等于该计算机存储器电力消耗比率。

6.如权利要求1、2或3的方法，其进一步包含由用户建立所述电力管理属性，其包括在作业的至少一先前执行期间监视该并行计算机的该运算群组的所述计算节点的电力消耗。

7.如权利要求1、2或3的方法，其中所述多个计算节点是通过多个数据通信网络连接以用于数据通信，至少一数据通信网络被优化以用于点对点数据通信以及至少一数据通信网络被优化以用于集合运算。

8.一种用于并行计算机中的主动电力管理的装置，该并行计算机包含服务节点和多个计算节点，该服务节点经由带外服务网络连接至所述计算节点，每一计算节点包含计算机处理器和操作地耦合至该计算机处理器的计算机存储器，所述装置包括：

用于通过该服务节点接收用以启动在该并行计算机中的计算节点的运算群组上的作业的用户指令的模块，该指令包括用于所述计算节点的电力管理属性；

用于通过该服务节点根据该运算群组的所述计算节点的所述电力管理属性设定该运算群组的每一计算节点的电力消耗比率的模块，所述电力消耗比率包括计算机处理器电力消耗比率和计算机存储器电力消耗比率；以及

用于通过该服务节点启动该并行计算机的该运算群组的所述计算节点上的该作业的模块。

9.如权利要求8的装置，其中所述电力消耗比率进一步包含执行循环与闲置循环的比率。

10.如权利要求9的装置，其中设定电力消耗比率进一步包含设定所述闲置循环的时间长度。

11.如权利要求8、9或10的装置，其中该计算机处理器电力消耗比率等于该计算机存储器电力消耗比率。

12.如权利要求8、9或10的装置，其中该计算机处理器电力消耗比率不等于该计算机存储器电力消耗比率。

13.如权利要求8、9或10的装置，其进一步包含用于由用户建立所述电力管理属性的模块，所述电力管理属性包括在作业的至少一先前执行期间监视该并行计算机的该运算群组的所述计算节点的电力消耗。

14.如权利要求8、9或10的装置，其中所述多个计算节点是通过多个数据通信网络连接以用于数据通信，至少一数据通信网络被优化以用于点对点数据通信以及至少一数据通信网络被优化以用于集合运算。