CN1225709C - 分散存储型多处理机系统及故障恢复方法 - Google Patents
分散存储型多处理机系统及故障恢复方法 Download PDFInfo
- Publication number
- CN1225709C CN1225709C CNB971045119A CN97104511A CN1225709C CN 1225709 C CN1225709 C CN 1225709C CN B971045119 A CNB971045119 A CN B971045119A CN 97104511 A CN97104511 A CN 97104511A CN 1225709 C CN1225709 C CN 1225709C
- Authority
- CN
- China
- Prior art keywords
- node
- checkpoint
- nodes
- data
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 81
- 238000003860 storage Methods 0.000 title claims description 49
- 238000011084 recovery Methods 0.000 title description 5
- 230000006854 communication Effects 0.000 claims abstract description 147
- 238000004891 communication Methods 0.000 claims abstract description 143
- 238000012545 processing Methods 0.000 claims abstract description 128
- 230000005540 biological transmission Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims description 40
- 230000001360 synchronised effect Effects 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 26
- 238000004140 cleaning Methods 0.000 description 24
- 230000009471 action Effects 0.000 description 17
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 2
- 206010074080 Autoscopy Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Retry When Errors Occur (AREA)
Abstract
在经由通信开关(10)连接节点1,2,…,N,经由通信开关(10)进行节点间通信的系统中,节点具有为了使故障发生时的再执行成为可能,在某时刻取得关于自节点的检查点,在故障发生时从前面取得的检查点再次开始数据处理的功能,抑制对于经由通信开关(10)的其它节点的数据发送,在通信开关(10)中不存在发送中的数据的状态下,和其它所有节点同步地进行开始基于该功能的检查点的获取。
Description
技术领域
本发明涉及大规模科学技术计算和数据库处理等中所用的分散存储型多处理机系统,特别地,涉及系统总体高可靠化的分散存储型多处理机系统。
背景技术
作为使计算机高度可靠的技术之一,有检查点/重新运行方式,例如,作为使计算机网络中使用的服务计算机高可靠化的技术而采用。
图26是示出检查点/重新运行方式的计算机的动作基本原理的概念图。检查点/重新运行方式的计算机中,在通常的数据处理的空闲时间,一般定期地取得检查点。在这里所说的检查点是能够再起动状态的点。
而且,如果硬件(HW)发生故障时,例如,在复位发生故障的HW机器等除去故障原因的基础上,在最终取得的检查点上重新运行系统,然后使系统再次起动。这就是检查点/重新运行方式的计算机的基本原理。与把计算机完全初始化相比,具有几乎不存在服务中断的优点。
但是,用高速信道连接众多节点,使得在各计算机中分散进行大规模科学技术计算和数据库处理的分散存储型多处理机系统正在普及。这种系统中,节点数可有几百~几千个,如果在某个节点发生故障,就需要停止整个系统,从系统的初始化开始修复,或者暂时不能使用例如故障节点担负的功能。
若假定某节点的故障不对其它节点的可靠性带来影响,分散存储型多处理机系统总体的可靠性(运转率)则以各节点的可靠性(运转率)之积表示。例如,取各节点的运转率为99.99%,节点数为1024,则系统的运转率为90.27%,若增加节点数,则总体的可靠性(运转率)的恶化将不可忽视。
于是,作为使分散存储型多处理机系统的可靠性(运转率)提高的方法之一,考虑作为各节点使用检查点/重新运行方式的计算机,提高各节点的可靠性(运转率)。例如,若取各节点的运转率为99.999%,节点数为1024,则系统的运转率为98.98%。
这样,作为分散存储型多处理机系统中的各节点采用检查点/重新运行方式的计算机时,存在使用了信道的节点间的数据通信(以后称为“节点间通信”)迟缓的问题。即,因为在检查点/重新运行方式的计算机中,一般关于对计算机外部的输出请求,要把实际输出该请求延迟到取得下一个检查点之后。
图27示出了在以往的检查点/重新运行方式的分散存储型多处理机系统中的2个节点(计算机A、计算机B)之间进行数据通信时的处理过程。如图示那样,检查点/重新运行方式计算机A在时刻T1取得了检查点CKP1后,接收另一个计算机B发出的处理请求(a),立即进行对于请求(a)的处理,在把应答(b)返回到计算机B后的时刻T2发生了故障时,计算机A返回到快到时刻T1前面的检查点CKP1。另一方面,尽管计算机A返回到不接收来计算机B的处理请求(a)的状态,但由于计算机B已经接收了来自计算机A的对于处理请求(a)的应答(b),因此,两者之间产生了矛盾。
以往的检查点/重新运行方式的计算机中,为避免这种不理想状态,对于通信输出等对外部带来影响的处理,不是立即输出那样的处理应答,而是写到下一个检查点的获取结束后才开始通信输出处理。
即,如图28所示,计算机A进行对于来自计算机B的处理请求(a)的处理,作成用于返回计算机B的应答的请求块,但使通信输出处理延迟。如图29所示,计算机A在时刻T3,在下一个检查点的获取结束的时刻对于计算机B实际上返回应答。其后,即使HW发生故障,也由于从在时刻T3取得的检查点CKP2开始再起动,因此,对于计算机B的应答(b’)被确实地传递给计算机B。
另外,如图30所示,计算机A在成为时刻T3之前,在时刻T2中发生了HW的故障FLT1的情况下,成为从在时刻T1取得的检查点CKP1开始再起动。这时,计算机A与消除接收了来自计算机B的处理请求(a)的情况相反,存储着计算机B发送出处理请求(a)、计算机A接收了处理请求(a)的信息。然而,这时从计算机B即使经过某个固定时间仍未从计算机A返回对于处理请求(a)的应答的情况中,就能够检测出计算机A的异常。即,依据计算机B再次发送处理请求(a)等的处理,能够恢复到正常的状态。
从而,若在分散存储型多处理机系统的各节点上采用以往的检查点/重新运行方式的计算机,则对于节点通信,不得不平均延迟检查点获取间隔的一半时间左右。
检查点获取间隔因系统而多种多样,而由于检查点获取自身就需要某种程度的时间,故即使再短实际也不短于几毫秒。从而,一般即使保守估计,节点间通信平均也将伴有1毫秒以上的延迟时间。
另一方面,分散存储型多处理机系统中节点通信的时间,在应用程序直接控制硬件时是几十微秒左右。
从而,若作为节点单纯地采用检查点/重新运行方式的计算机,则在原本几十微秒左右的数据通信中伴有1毫秒以上的延迟时间,在节点间频繁发生数据通信的情况下,将招致系统总体性能的显著下降。
发明内容
本发明是考虑了以上情况而完成的,目的在于提供能够把在节点上使用了检查点/重新运行方式的计算机时的节点间通信高速化的分散存储型多处理系统。
本发明提供了一个分散存储型多处理器系统,其特征在于包括:
多个节点;以及
一个通信信道,用于连接多个节点使其相互之间可以传送消息;
其中,每个节点包含:
至少一个处理器,
一个相关主存储器,和
一个相关高速缓冲存储器,用于在一个正常处理数据过程中检测错误时执行检查点检查以及重新恢复运行;
所述节点设计排列成树构造,在对所有节点同步开始执行检查点检查的树构造传输中,通过在相关父节点和对应子节点之间连续传输信息,从而实现节点之间的同步检查点检查;
通过向对应的父节点发送一个开始所述检查点获取的指令请求,从检测开始该检查点获取的必要性的一个节点把所述信息传递出去;
收到上述指令请求的父节点依次把所述指令请求传送至该树构造的根节点,以及
上述根节点命令所有的子节点开始进行检查点获取。
由此,取得检查点时,在不存在正在经由信道传送的数据的状态下,对于构成分散存储型多处理器系统的所有节点,同步地获取检查点。而且,在发生了某种故障时,对于信道再现不存在正在传送的数据的状态,对于各节点,在前面取得的检查点上重新运行后再次起动数据处理。
即,在分散存储型多处理器系统总体取得检查点期间,通过不进行经由信道的节点间的通信,能够不必保存信道的状态。
另外,上述节点是这样的节点,保持和所有其它节点同步取得的检查点直到在所有的节点完成下一个检查点的获取为止,在某节点发生故障时在得到下个检查点之前与其它所有节点同步地被通知发生了故障,上述节点的特征在于不是把通常的数据处理所伴有的节点间数据发送延迟到下个检查点获取之后,而是立即实行。
由此,各节点进行节点间的数据传送而不延迟到下个检查点,而由于除此之外的数据发送延迟到下个检查点获取之后,因此,节点间被传送的数据即使故障发生前的数据处理时和伴随使故障发生进行了重新运行后的数据处理时不相同,其影响在未结束获取下一个检查点期间也仅停留在构成分散存储型多处理器系统的节点内。
从而,能够不延迟地进行经由信道的节点间的通信。
本发明的特征还在于:
所述每个节点包含一个可回写型高速缓冲存储器和一个用于存储获取的检查点的主存储器;
所述每个节点在与所有其它节点同步地获取所述检查点之前,强制性地把上述高速缓冲存储器中涂改过的数据重写到上述主存储器中。
一般在具有可写回的高速缓冲存储器的处理器中,检查点时间的大半部分消耗在把存在于超高速缓冲存储器中的涂改数据写回主存储器的处理中。为缩短这一时间,通过强制地把通常的数据处理中存在于超高速缓冲存储器中的涂改数据写回主存储器中,则能够在进行检查点获取之前,减少存在于超高速缓冲存储少器中的涂改数据量。
本发明的特征还在于:上述节点的每一个在达到某时刻的时刻点开始进行上述检查点的获取,使得上述检查点的获取与其它所有的节点同步地进行。
这样,各节点通过预先约定在成为某时刻的时刻点同时开始检查点的获取,则不需要相互通知开始检查点的获取,由此可以减轻全部节点取得同步的额外开销。
本发明的特征还在于:
与树构造相对应的节点中的每一个进行和相关节点建立同步结束检查点获取的数据传输;
上述每个节点一开始检查点获取的操作,就禁止从其它节点接收数据,并在即将结束检查点获取之前,为再次开始正常数据传输而允许从其它节点接收数据;
从所有子节点收到检查点结束准备完毕的通知的那个节点,把检查点结束准备完毕的信息传送给父节点,从所有上述子节点收到上述检查点结束准备完毕的通知的那个根节点,向所有上述子节点发出检查点结束的指令,并通过废除前一个检查点来自己结束该检查点获取,以及
从父节点收到检查点结束指令的、或从一个重新开始正常数据处理的节点处收到一个正常的数据通信的那个节点,向所有的相关子节点发送检查点结束指令,并通过放弃前一个检查点来自己结束该检查点获取。
由此,若在某节点检测出应该开始检查点获取,则通过树构造的路径,检查点获取开始请求首先通知给根节点,然后从根节点对于子节点给与检查点获取指令,由此,依次地对所有节点通知了检查点获取指令。
本发明的特征在于,根据在一定时刻之前是否接收了来自上述父节点中所有子节点的检查点获取结束准备完毕的通知,来检测故障。
这样,在关于节点的故障方面,也包括从其它节点看来该节点成为无应答状态。这时成为即使经过某预定时间根节点中仍未从所有子节点接收到检查点获取的结束通知的状态,于是,对于所有子节点,如果需要,进行处理器(CPU)的初始化,由此从这种无应答状态退出,同时,通过对前一个检查点指令重新运行,作为系统总体就能够从故障发生前的状态再次开始通常的数据处理。
本发明的特征还在于:
每一个节点都具有在检查点获取操作中自我设定为检查点的获取节点或检查点的非获取节点的装置;
被设定为检查点的获取节点的节点在获取检查点时,禁止数据通过通信信道传给其它节点,并完成接收通过上述通信信道传来的数据;
被设定为非获取节点的节点禁止数据通过信道传输给被设定为获取节点的节点,并和所有其它节点同步处理数据,使信道中不存在发送的数据,以及
进行检查点获取的节点检测到错误时,禁止通信信道中的数据传输,并完成经过信道的数据接收,然后从上一次取得的检查点重新开始数据处理。
由此,把分散存储型多处理器系统内多个节点分组,在各个组实行不同应用(例如数据库系统、决策支援系统等)时,能够选择、设定对应于按节点单位实行的应用的检查点获取的有无(获取节点、非获取节点)。这时,根据节点间通信在获取节点或非获取节点的某个之间进行,控制数据传送。
本发明的特征还在于:
所述多个节点被分成几个用于进行不同的应用的组,每个节点组分别取得检查点;
在别的组的节点取得一个检查点之际,同组的节点相互之间进行数据传输;
暂停不同组之间的节点的数据通信,直到完成下一个检查点获取为止,以及
当在一个节点检测到错误时,禁止其它组中的所有节点在上述信道里传输数据,并结束经过上述信道的数据接收,以保持该信道里没有数据,而与检测到错误的节点同组的所有节点从上一次取得的检查点开始重新开始剩下的数据处理。
由此,由于通过把分散存储型多处理器系统内的多个节点按各实行的应用分组,在每个组进行关于检查点获取的和其它节点的同步控制,因此,减轻了检查点所需要的处理负担(额外开销)。其中,进行控制使得不同组的节点间的经由信道的数据发送在组间不产生不匹配。
附图说明
图1是示出本发明实施形态的检查点/重新运行方式的分散存储型多处理器系统结构的框图。
图2是用于说明使用了BIB(Before Image Buffer(前缘缓冲器))的数据保存和重新运行的说明图。
图3是示出实施形态中节点间通信的发信侧动作的流程图。
图4是示出实施形态中节点间通信的接收侧动作的流程图。
图5是用于说明实施形态中即使不延迟地进行节点间通信也不存在问题的状况的说明图。
图6是用于说明实施形态中即使不延迟地进行节点间通信也不存在问题的状况的说明图。
图7是用于说明各节点的cpu1-2-1...N-1一起进行检查点获取动作的流程图。
图8是示出多个节点1、2、...N中的通常的数据处理和检查点获取的时序图。
图9是示出逻辑地对应于各节点的2元树(Binary Tree)图。
图10示出BIB表的一侧。
图11示出2个BIB计数器和2个BIB的对后关系。
图12示出在多处理器系统中进行的检查点获取处理总体的流程。
图13是示出检查点获取处理的顺序的流程图。
图14是用于说明对检查点重新运行并再起动的方法的流程图。
图15是用于说明障碍发生时的节点间通信的2元树图。
图16是用于说明为同步开始检查点获取的节点间通信的2元树图。
图17是用于说明接收了检查点获取的开始指令请求时的节点动作的流程图。
图18是用于说明在节点间使开始检查点获取同步的动作的流程图。
图19是示出节点间通信的发信侧动作的流程图。
图20是用于说明在节点间使开始检查点获取同步的动作的流程图。
图21是用于说明节点间通信的接收处理的流程图。
图22是示出2阶段检查点方式的动作的时序图。
图23是示出为了节点实施2阶段检查点的超高速缓冲存储器装置的控制方法的流程图。
图24是示出对于众多节点A-P进行分组的概念图。
图25是示出对于众多节A-P进行分组的概念图。
图26是示出检查点/重新运行方式的计算机的动作基本原理的概念图。
图27示出立即执行在2个节点(计算机A、计算机B)间进行数据通信时的通信处理请求时的不理想状况例。
图28示出延迟在2个节点(计算机A、计算机B)间进行数据通信之际的通信处理请求例。
图29示出采集使2个节点(计算机A、计算机B)间进行数据通信时的通信处理请求延迟后的新检查点例。
图30示出使2个节点(计算机A、计算机B)间进行数据通信之际的通信处理请求延迟后发生故障的情况例。
具体实施方式
以下,参照附图说明本发明的实施形态。图1是示出第1实施形态的检查点/重新运动方式的分散存储型多处理器系统的结构的框图。示于图1的分散存储型多处理器系统具有多个(N个)节点(计算机)1,2,...,N,用通信开关10(信道)相互连接。
各节点1,2,...,N具有cpu1-1、2-1、...,N-1、通信转接器1-2、2-2、...、N-2,主存储器1-3、2-3、...、N-3,BIB(Before Image Buffer)1-4、2-4、...、N-4,超高速缓冲存储器1-5、2-5、...、N-5。各节点的转接器2-1、2-2、...、N-2和通信开关10连接。
各节点1、2、...、N为了能够进行故障发生时的再次执行,具有定期地取得对于自节点的检查点,并在故障时从前一个取得的检查点起再次开始数据处理的功能,为实现该功能,设置了被称为BIB1-4、2-4、...、N-4的特殊硬件机构。
另外,图1所示的第1实施形态中的结构内,各节点1、2、...、N具有的CPU数分别为1个,但也可以是1个节点具有的CPU数为2个以上的多处理器构造。还有,BIB是实现检查点/重新运行方式的计算机的一种装置,也可适用其它实现法。
另外,即使节点的CPU数和CPU种类,主存储器的容量、操作系统的种类等不同也无关紧要。不过,从管理系统的观点出发,希望各节点是相同的硬件结构,同一种操作系统。
图2是说明在图1的节点1、2、...、N中使用了称为BIB(BeforeImage Buffer)的对数存储器的数据保存和重新运行的说明图,示出了更新主存储器的数据时,把发生了更新的地址和更新前的数据保存在BIB(图2(a))、使用BIB把主存储器恢复(重新运行)为原状态的情况(图2(b))。
首先,BIB4在CPU1更新超高速缓冲存储器5中的数据时,通过监视为了维护输出到系统总线b上的超高速缓冲存储器的相关性的总线指令,检测被改写了哪个地址的数据。BIB读出主存储中有改写请求的地址的数据(尚未被更改的数据),把它们的地址和数据组保存在缓冲器中。
例如,图2(a)中,当CPU1在超高速缓冲存储器上把X写入100地址时,BIB4检测出在100地址上进行了写入动作,从主存储器读出100地址的内容(A),在BIB4中存储100地址的原数据A。
然后,在发生故障等而把主存储器重新运行为原状态时,如图2(b)所示,把超高速缓冲存储器5的内容无效化,使用保存在BIB4中的地址和原来的值把主存储器的内容恢复为原状态。一旦主存储器的内容返回到前一检查点的状态,则清除BIB,恢复到通常的处理。
节点1,2,...,N在各个主存储器1-3、2-3、...、N-3上获取检查点,而且,通过在BIB上保存对于来自检查点的主存储器1-3、2-3、...、N-3的更新经历,则能够进行发生故障时的主存储器的重新运行。
节点1,2,...,N上在主存储器内取得新检查点的顺序如下。
(A1)把CPU的上下文(寄存器的值)保存在主存储器上。
(A2)把在超高速缓冲存储器上被更新了的数据写回主存储器(快速)。
(A3)清除BIB的内容,结束检查点处理返回到通常的数据处理。
这里,(A3)的处理意味着检查点获取的结束,在未实行(A3)时而发生了故障的情况下,对一个即将在前面的检查点进行重新运行。另一方面,在执行了(A3)后发生了故障时,对该检查点(即(A3)结束时刻)进行重新运行。
在系统中发生了故障时,对前一个检查点进行重新运行,再起动的顺序如下。
(B1)把超高速缓冲存储器无效化。
(B2)使用记录在BIB上的地址和更新前的数据值把主存储器恢复到前一个检查点。
(B3)通过把保存在主存储器的CPU的上下文复原到CPU中,再次起动。
接着,说明节点间通信。在第1实施形态中,从某节点(发信节点)向其它节点(接收节点)的信息传送按以下顺序进行。
(C1)在发信节点的主存储器上生成信息。
(C2)起动发信节点的通信转接器。
(C3)依据通信开关10进行路由选择。
(C4)起动接收节点的通信转接器。
(C5)在接收节点的主存储器上存储信息。
在此,说明应用程序和节点间通信控制部分(第1实施形态中,作为系统程序的一部分实现)的联锁。
在此,为使说明简化,将节点1作为发送侧,将节点N作为接收侧进行说明。
图3是示出节点间通信的发信侧动作的流程图,应用程序一旦在主存储器1-3上生成向其它节点N发送的发送消息(步骤A1),则实行系统调用,调用系统程序中的节点间通信控制单元(步骤A2)。
节点间通信控制单元使CPU1-1成为禁止中断(步骤A3),在通信转接器1-2的控制寄存器中设置用于把发送信息发送给指定节点N的控制信息,起动通信转接器(步骤A4)。然后,解除CPU的中断禁止(步骤A5)。
使CPU禁止中断在一般的I/O机器的控制中是为了进行正确的动作而广泛进行的。而在本发明这样使用检查点/重新运行方式的计算机的结构中还具有为防止取得检查点的意义。
一般若在操作I/O设备的寄存器过程中进行检查点处理,则发生故障时从该I/O设备的寄存器操作过程中再起动,故不能保证动作。不在I/O机器的寄存器操作过程中开始检查点处理本身并不是本发明的特征,在以往的检查点/重新起动方式的计算机中已经采用。
最后,依据通信转接器1-2的发信结束,确认完成了对于其它节点的发信处理(步骤A6),节点间通信控制单元把请求了信息发送的应用程序(发信请求处理)置于可执行状态(步骤A7)。
图4是示出节点间通信的接收侧动作的流程图。首先,如果通信转接器N-2检测到来自其它节点1的信息接收请求,则产生中断,开始节点间通信控制单元中的处理(步骤B1)。
节点间通信控制单元将信息存储区的接收缓冲器分配在主存储器N-3上(步骤B2),在控制寄存器上设置控制信息使得在接收缓冲器上存入由通信转接器N-2接收的信息,然后,起动通信转接器。
若通信转接器N-2中的接收结束(步骤B4),则节点间通信控制单元检查所接收的信息是否为通知其它节点中发生故障的信息(步骤B5)。
这里,接收的信息是通知其它节点中发生故障的信息时(步骤B5的Yes),则跳到障碍处理单元,所有节点在前一个检查点重新运行,进行用于再起动的处理。
另一方面,在接收的信息是通知发生故障的信息以外,即,是关于一般的数据处理的信息时(步骤B5的No),如果应接收其信息的应用程序为等待信息接收状态,则把该应用程序置为可执行状态。
在本发明的分散存储型多处理器系统中,如果发生节点间通信的请求,则不等到下个检查点获取结束就立即进行节点间通信,由此使节点间通信高速化。
为能做到这一点,需要对于发生的情况进行处理。
本发明的第1实施形态中,通过设置如下的结构和方法(D1)-(D4),使得能够不等到下个检查点获取结束就立即进行节点间通信。
(D1)所有节点同步地获取检查点(关于不完全同步实现的方法在后述的第3实施形态,第4实施形态中说明)。
(D2)在某个节点发生故障时,在所有节点结束下一检查点获取(清除BIB之前)之前,通知发生了故障,所有节点在前一个检查点重新运行。
(I3)对于节点间通信以外的I/O机器的输入输出和与其它计算机(例如,实行不同的应用程序的其它节点组中的计算机)的通信请求延迟到下一检查点获取之后进行。
(D4)获取检查点的过程中,信道处于不存在传送中的数据的状态。即,获取检查点时,抑制对于经由通信开关10的其它节点的数据发送,并且结束来自经由通信开关10的其它节点的数据接收。
依据(D4)的方法,即使在某个节点发生故障,所有节点同步地,分别在前一检查点重新运行的情况下,对于通信开关10也没有必要进行任何特别的处理,或者仅复位通信开关10即可。
下面,依据上述的(D1)-(D4)的构成,说明通过立即执行节点间通信的请求使节点间通信高速化的例子。这里,使用2个例(第1侧、第2例)说明即使不延迟地进行节点间通信也没问题的情况。
第1例如图5所示,在时刻CKPO,所有节点1,2,3取得检查点后,在故障发生前的节点间通信中从节点1向节点2发送信息,在节点2,根据该信息从节点2向节点3发信息。
设在从节点2向节点3发出信息后,在时刻FLTo节点1发生了故障。这时,在各节点1、2、3结束检查点获取之前,即清除BIB的内容之前,检测到在节点1发生了故障,对时刻CKPo时的检查点进行重新运行。
即,在所有节点1、2、3中同步地获取检查点,而且在某个节点发生故障时,所有的节点在同一时到获取的检查点处重新运行,由此,即使时刻FLTo之后进行节点间通信也不产生矛盾。从而能够不使节点间通信进行等待地实施节点间通信。
第2例如图6所示,这是在故障发生前的节点间通信中从节点1向节点2发送信息,在节点2根据其信息向I/O机器(这里是磁盘装置)进行写入的情况。
本发明中,虽然立即进行节点间通信,但向盘的写入仍要等到检查点的处理结束。这里,在某一节点发生故障时,通过所有节点在同一时刻取得的检查点重新起动,不从节点1发送信息,还有节点2中是不进行向盘写入的状态,因此,节点间不发生矛盾。
这样,本发明第1实施形态中,不延迟地进行节点间通信以及伴随节点间通信的各节点间的通常的数据处理,而关于对外存写的I/O机器的输入输出请求和与其它计算机(例如执行不同应用的其它节点组中的计算机)的通信在所有节点同步地取得检查点后进行其处理要求。由此,节点间通信和基于由该节点间通信的信息的通常数据处理如上述第1例,第2例所示,能够无延迟地进行。
下面,说明在第1实施形态中,在所有节点同步地一起取得检查点的方法。
作为开始检查点获取的定时,一般使用下面的任何一个。
(E1)经过一定时间
(E2)BIB的残余容量降到某预定值以下
(E3)被延迟的I/O请求数上升到某预定值以上
等等。采用何种方式,或并用多种方式,可以根据系统的使用方法和BIB的容量决定。
第1实施形态中,设仅是(E1)经过一定时间时,各节点一起开始检查点的获取。由此,对于检查点的开始,没有必要进行用于在各节点间取得同步的节点间通信。
图7是用于说明各节点的CPU1-1、2-1、...、N-1一起进行检查点获取动作的流程图。还有,图8是示出多个节点1,2,...,N中通常的数据处理和检查点获取定时的流程图。
各节点进行通常的数据处理直到时刻T1(步骤C1)。其间,各节点间发生的节点间通信请求不延迟地立即执行。另外,从其它节点接收的信息不延迟地传送给应用程序。
一旦达到时刻T1,则各节点停止通常的数据处理的执行(步骤C2)。另外,时刻T1是以预先决定的某时刻为基准的预定时间后的时刻。
在时刻T1-T2,原则上不进行向其它节点的信息发送,而由于在CPU的中断禁止状态下进行通信转接器的起动(图3中的步骤A4),因此,来自在时刻T1前有请求的其它节点的信息发送可以在时刻T1过后接收(步骤C3)。然而,这样的信息发送也在时刻T2前结束。另外,从其它节点接收的信息存储在主存储器上的接收缓冲器中,而通过不把CPU给与到接收了信息的应用程序上,故防止开始通常的数据处理。
若达到时刻T2,则使CPU成为禁止中断(步骤C5)。这是为了防止CPU进行某个中断处理,而可靠地进行超高速缓冲存储器的清洗。
一旦达到时刻T2,则各节点作为一起取得检查点的一个环节,把CPU的上下文(寄存器的内容)保存到主存储器,清洗超高速缓冲存储器(步骤C6、C7)。然后,使CPU成为许可中断(步骤C8)。
最后,需要在所有节点同步地进行检查点处理的结束(BIB内容的清除)。即,由于取得检查点所需时间在所有节点并不相同,故在各节点各自进行BIB内容的清除时,若在所有节点清除BIB的内容之前发生了障碍等,则所有节点将不能够在同一检查点重新运行。
第1实施形态中,把分散存储型多处理器系统内的各节点与树形构造的各节(节点)建立对应关系,处于基于该对应的父节点和子节点的关系的节点之间通过节点间收发检查点结束准备完毕和检查点结束的通知(消息)取得同步。另外,检查点结束准备完毕表示成为超高速缓冲存储器结束并且能够清除BIB的内容前的状态。
这里,使逻辑上2元树(Binary Tree)的各节点(节)和系统中的各节点(计算机)1∶1对应。
如图9(a)所示,把节点1对应于2元树的根节点,节点2、3对应成为节点1的子节点。一般,节点2n及节点2n+1作为节点n的子节点相对应。该对应是以节点的识别编号为基础逻辑地把各节点间建立对应的,不必要特别的硬件。
若在某个节点结束了超高速缓冲存储器的清洗,则成为CPU允许中断(步骤C8),等待接收来自2元树上子节点的检查点结束准备完毕的通知状态(步骤C9)。但在不具有2元树上子节点时不进行该处理。
若接收到来自子节点的检查点结束准备完毕的通知,则从2元树的子节点顺序地向父节点进行发信,在节点1接收到来自节点2及节点3的检查点结束准备完毕的通知的时刻,能够保让在所有节点超高速缓冲存储器清洗。
接着,节点1向全部子节点,即节点2及节点3发送检查点结束指令的通知,其信息这次如图9(C)所示,从2元树的父节点顺序地向子节点进行发送。
若某个节点向父节点发送了检查点结束准备完毕的通知,则成为等待接收来自父节点的检查点结束指令的通知的状态。在此,接收了来自父节点的检查点结束指令的通知的节点发送对于其子节点结束的检查点结束指令的通知(步骤C11、C12)。
另外,为了同步开始下一检查点的获取,需要确定时刻T11及时刻T12。这些时刻,节点1以图8中的时刻T13为基准,把其预定时间后的时刻决定为取得下一个检查点的时刻T1、T2,并且作为检查点结束指令的参数可以传送到各节点。
接收了检查点结束指令的节点清除BIB的内容(步骤13),再次开始通常的数据处理。
这样,第1实施形态中,通过把各节点与2元树的节点逻辑对应,按照所决定的顺序,即相应于父节点和子节点的关系的顺序传递检查点结束准备完毕或检查点结束的通知,能够对所有节点有效地进行检查点获取结束的同步。
例如,节点数为1023时,能够以向上信息传递9级和向下信息传送9级实现。
还有,还能够与子节点3个以上的一般树的节点相对应以代替使各节点与2元树的树构造的节点相对应。
另外,为了进一步提高性能,各节点在图7中的步骤C8结束的时刻,还能够边进行步骤C9-C12的处理边再次开始通常的数据处理。
为此,需要在未使检查点获取结束时,再次开始通常的数据处理的机构。
例如,节点在多处理器结构的情况下,可以通过设置2个BIB的结构实现。
还有,在单处理器时,也可以把BIB的适当范围的内容在重新运行时写回到主存储器。
还有,所有节点中在结束了检查点取得的时刻,各个处理器一起开始通常的数据处理的同步一般称为位垒同步。用硬件取得同步的机构能够用“接与”电路实现。通过具备使用“接与”的硬件,能够代替上述那样的使用节点间通信获取同步的方法。
这里,用图10-图13说明节点在多处理器的情况下,设置了2个BIB的结构的概要。为了决定各cpu应该使用哪个BIB,使用图10所示那样的BIB(记录)表。BIB表设在例如总线控制器(未图示)上。
图10所示,BIB表保持着cpu各个cpu编号和那些cpu现在使用着的BIB的编号(当前BIB编号)的关系。
这里,当前BIB编号“0”表示使用BIB6a,当前BIB编号“1”表示使用BIB6b。在系统开始时,设定为所有cpu的当前BIB编号表示“0”,使得全部的cpu使用BIB6a。
图11示出2个BIB计数器52a、52b和2个BIB6a、6b的关系。BIB计数器52a保持着指定BIBa的更新经历信息存储位置的指针,其指针值在每次更新经历信息写入BIB6a时,都从BIB6a的起始地址向最终地址增加1。BIB计数器52b保持着指定IBI6b的更新经历信息存储位置的指针,其指针值在每次更新经历信息写入BIB6b时,都从BIB6b的起始地址向最终地址增加1。
在通常的程序执行处理期间,各cpu在需要向主存储器写入时,对于总线控制器传送
(1)cpu的ID
(2)存储器的地址
(3)存储器的数据
总线控制器若检测到该写入请求,则从cpu的ID(cpu的编号)决定使用哪个BIB(在此设使用BIB6a),得到对应于该BIB6a的BIB计数器52a的值,把存储器地址和其存储器地址更新前的数据作为更新经历信息记录在对应于其计数器的BIB6a的位置上,而且更新主存储器。
然后,各cpu在用来自总线控制器的中断信号和查询处理检测到经过了预定时间、或者BIB6a的残余容量降低到预定量时,开始检查点获取处理。在检查点取得处理中,为复原各cpu内部状态所必要的寄存器的值以及超高速缓冲存储器内的数据中尚未反映在主存储器中的数据经由总线控制器写入到主存储器中。关于这时的更新经历和上述一样记录在BIB6a中。
至此结束了的各cpu为切换使用的BIB,把BIB表的当前BIB编号从“0”改写为“1”(这里设接着使用BIB6b),然后,立即再次开始通常的程序处理。
这样,按结束了检查点获取处理的cpu的顺序,通过把使用的BIB从至此为止使用的BIB切换为另一个BIB,能够不破坏至此为止使用的BIB的内容而再次开始通常的程序执行处理。由此,各cpu能够在结束了自身的检查点获取处理的时刻立即再次开始通常的程序执行处理,使系统总体的待机时间大幅度减少。
接着,参照图12说明检查点获取处理的总体流程。
现在,如图13所示,设cpu2a-2c并行动作,即各cpu2a-2c分别进行通常的数据处理(图12(1))。而且,设这时使用的BIB是BIB6a(图12(2))。
然后,在各cpu2a-2c的动作中BIB6a的残余容量降低到预先设定的预定量时(图12(3)),cpu2a-2c的每一个都检测到其意义,开始检查点处理(图12(4))。
该检查点获取处理的开始以及所需时间如上述,依据其检测定时以及检测时处理中的程序种类、超高速缓冲存储器的状态而不相同。
而各cpu2a-2c在自身的检查点处理结束时,切换使用的BIB,立即再次开始通常处理(图12的(5))。由此,对于再次开始通常的数据处理的cpu,开始向BIB6b的更新经历的采集(图12的(6))。
另一方面,在全部cpu2a-2c的检查点处理结束了之际(图12的(7)),进行BIB6a的复位,即废除在BIB6a中记录的更新经历。
接着,参照图13的流程图,说明各cpu实行的检查点获取处理的顺序。
各cpu当进行通常的数据处理时(步骤S1),在检测到记录中的BIB的残余容量降低到预先设定的预定量的情况下(步骤S2),开始检查点获取处理(步骤S3)。在该检查点获取处理中,包含CPU的各种寄存器的其CPU的内部状态(上下文)和未反映在主存储器中的超高速缓冲存储器的内容写入到主存储器中。接着,该CPU为切换使用的BIB,把BIB表中该当前BIB编号从“0”改写为“1”(步骤S4)。
随后,判断其CPU是否为结束了自身检查点获取处理的最后的CPU(步骤S5)。该判断通过参照BIB表,查询是否在未改写当前BIB编号的CPU来进行。如果全部CPU的当前BIB编号都已改写为新的编号,则该CPU是结束了检查点获取处理的最后的CPU。这种情况下,该CPU为废除至今使用的BIB的内容,清除其BIB(步骤S6)。在该清除处理中,对应于该BIB的BIB计数器的指针值返回到“0”。随后,该CPU再次开始在检查点获取处理中所中断了的通常的程序执行处理(步骤S7)。
另外,不一定必须把2个存储器物理地作为BIB使用,也可以把1个物理存储器作为2个逻辑存储器(BIB)使用。
以上在第1实施形态中,说明了在所有节点同步获取检查点的方法以及在检查点获取之际由于不进行节点间通信而不必获取有关信道的检查点的情况。
以下,参照图15所示的流程图,说明在第1实施形态中,当某个节点发生故障时,所有节点对前一个检查点重新运行、再次起动的方法。
这里的前提是对于发生了故障的节点,通过在前面的检查点重新运行,能够再次起动通常的数据处理。对于某节点发生了故障,其节点陷入了完全不动作的状态,适宜的复位分散存储型多处理器总体。
当检测出某个节点发生故障时或者从其它节点接收了发生故障的通知时(图4的障碍处理单元(步骤B6)),起动图15所示流程中执行的障碍处理单元,开始恢复处理。
首先,在本节点发生故障时,进行故障了的HW的复位等必要的故障恢复处理(步骤D1)。
接着,向2元树的父节点发送故障通知(步骤D2)。
如图15(a)所示,障碍发生通知从发生了故障的节点一个接一个地传向父节点,最终到达节点1。
如图15(b)所示,如果在多个节点几乎同时发生了故障时,2元树上的任一个节点几乎同时或隔开时间从2个子节点接收到故障发生通知。这时,父节点可以只发送1个故障发生通知。
节点1若接收到故障发生通知,则对于子节点发出重新运行指令。接收了来自2元树上的父节点的重新运行指令的节点(步骤D3)向2元树上的子节点发送重新运行指令(步骤D4)。这样,如图15(c)所示,重新运行指令从节点1一个接一个地传向子节点。
在接收了重新运行指令的节点中,进行超高速缓冲存储器的无效化(步骤D5)、以及通过参照BIB内容的主存储器的重新运行(步骤D6),从检查点再次起动通常的数据处理。
另外,在获取检查点的过程中,当某个节点发生了故障时,其故障发生通知在收发检查点结束准备完毕的定时内传向其它的节点。这时,最终地把故障发生通知到节点1。而且,从节点1向子节点传送重新运行指令,对于即将清除BIB内容的节点,也进行对于前一个检查点的重新运行。
还有,依据故障的种类,在故障发生了的节点,也可能有不继续一切数据处理的情况。这样的情况时,由于检查点获取结束准备完毕的通知不能从其节点传向其父节点,因此通过在父节点监视关于接收来自子节点的检查点获取结束准备完毕的通知的超时,能够检测出故障发生。
而且,用从父节点向发生了故障的子节点施加复位等方法,在上述子节点CPU再次动作时,能够适用上述的恢复处理。
以上,在第1实施例中,说明了所有节点同步在获取检查点的构成及方法,这时,通过抑制向其它节点的发信,避开在通信开关10和通信转接器1-2、2-2、...、N-2中产生半途不完整的状态,当某个节点发生故障时,所有节点在前一个检查点重新运行,再次起动通常的数据处理,依据这些机构,示出了节点间通信能够无延迟地进行。
下面,说明第2实施形态。
第1实施形态中,仅就经过一定时间的场合说明了各节点1、2、...、N一起开始检查点获取的情况。
第2实施形态中,说明某个节点在BIB残余容量下降到某个预定值之下时在所有节点开始检查点获取的方法。在此,BIB的残余容量降低到某定值的节点被称为检查点处理开始请求节点。
第2实施形态由于和第1实施形态接近,因此以不同部分为中心进行说明。第2实施形态中也和第1实施形态相同,各节点逻辑地与2元树的节点1对1地对应。
如图16(a)所示,检查点处理开始请求节点(节点5)对于父节点(节点2)发送开始检查点获取的指请求,接收了该请求的父节点(节点2)双将其发送到自己的父节点(节点1),如此,向节点1传送开始检查点获取的指令请求。
沿着2元树形状的传送,是为了防止众多节点对节点1发送检查点获取开始指令请求。
节点1对于节点2和节点3发送检查点获取指令,如图16(b)所示,沿着2元树的形状,向所有节点传送了检查点获取指令。
各节点在BIB的残余容量下降到某阈值时,或者从子节点接收了开始检查点获取的指令请求,进行图17的流程所示的处理。
首先,符合条件的节点向父节点发送检查点获取开始请求(步骤E1)。但对于节点1,由于没有父节点因此不进行该步骤。
一旦检查点获取开始请求传到节点1,则节点1向子节点,即节点2、3发送检查点获取指令(步骤E2)。节点1由于没有父节点,不执行步骤E2。
节点2、3把从节点1发送来的检查点获取指令向自己的子节点发送(步骤E3)。各节点通过执行步骤E2、及步骤E3的步骤,向所有节点传送了检查点获取指令。
各节点中断通常的数据处理,把节点间通信的接收处理执行到时刻T4(步骤E4、E5)。这是因为检查点获取指令达到对应于2元树的叶的节点期间,可能产生伴随通常的数据处理的节点间通信,故需要将其全部接收。
另外,希望在节点1执行步骤E3之际决定时刻T4。
若成为时刻T4,则由于信道(通信开关10)上没有节点间通信的数据,因此和图7的步骤C5-C13一样,进行检查点获取及获取结束的同步处理(步骤E6-E14)。详细的说明按照和上述图7所示流程中的步骤C5-C13相同的顺序进行。
另外,第2实施形态中,在某节点BIB的残余容量降低到某阈值时,首先说明了如图16(a)所示,把检查点获取开始指令请求传递到根节点(节点1),如图16(b)所示,从根节点发出检查点获取指令的情况,然而也可以是其它的方法。
作为所希望的方法,如图16(c)所示,从检测出BIB的残余量降低到某阈值的检查点处理开始请求节点起(图16(c)中节点5)向父节点及所有子节点发送检查点获取指令,接收到检查点获取指令的节点向自己的父节点及所有子节点发送检查点获取指令,由此向所有节点发送检查点获取指令,这样的方法也能够采用。
这种情况下,从某节点接收检查点获取指令时,需要以下2点:
(F1)对于传送来检查点获取指令的节点,不发送检查点获取指令。
(F2)在接收了2个以上的检查点获取指示时,舍弃第2个及其以后接收的检查点获取指令。
以上,第2实施形态对于在某节点产生需要开始获取检查点时,即BIB的残余容量降低到某个定值时,向所有节点传送检查点处理开始请求,并在没有节点间通信的状态下,对所有节点同步地获取检查点的方法进行了说明。
下面,说明第3实施形态
第2实施形态中,在图17的步骤E5,假定为了进行在检查点获取指令达到对应于2元树的叶的节点之前可能产生的节点间通信的接收处理,要等待到成为时刻T4。第3实施形态示出通过不等到时刻T4而使节点间通信更高速化的方法。
第3实施形态中,关于通信转接器1-2、2-2、...、N-2假定下述的功能。
(G1)各节点的CPU能够设定对于其节点的通信转接器的接收拒绝模式。
(G2)为了从节点A向节点B发送数据,起动节点A的通信转接器,而且,在节点B的通信转接器设定为接收拒绝模式时,实际上不进行通信,通过节点A的通信转接器在节点A的CPU中产生中断,通知异常结束以及异常结束的原因。
在通信转接器1-2、2-2、...、N-2具有上述(G1)、(G2)的功能时,通过如图18、图19那样变更图17的流程图所示的在节点间使检查点获取开始同步的方法以及图3的流程图所示的节点间通信的发信侧(发信控制单元)的动作方法,能够节省从父节点接收到检查点获取指令后的等待时间。
各节点在开始检查点之际(步骤F1),把通信转接器设定在接收拒绝模式(步骤F2)。
在此,设节点A生成发送信息(步骤G1),起动通信转接器(步骤G2-G4),对于节点B进行数据发送(步骤G5-G6)。另一方面,节点B为了开始检查点获取,把通信转接器设定在接收拒绝模式(步骤F2)。
这时,在节点A中,在图19的步骤G6检测到对方的通信转接器设定在接收拒绝模式,在一定时间内不进行对于节点A的信息发送(步骤G9)。
通常,该等待期间,对于节点A也发送了检查点获取指令,因此,中断通常的数据处理成为开始检查点获取。
以上,在通信转接器能够设定接收拒绝模式的情况下,说明了对于检查点获取开始不必等待一定时间直到没有了伴随通常的数据处理的节点间通信为止。
另外,在第3实施形态中的方法对于第1实施形态也能适用,这时,图7的步骤C3、C4中不必继续节点间通信的接收处理直到经过时刻T2。
下面,说明第4实施形态。
第3实施形态中,在能够把通信转接器设定为接收拒绝模式的情况下,说明了对于检查点获取的开始,不必等待一定时间直到伴随通常的数据处理的节点间通信没有为止。第4实施形态中,示出通信转换器中即使没有可以设定接收拒绝的功能也可以不必等待一定时间的办法。
如图20的流程所示,在开始检查点之际(步骤H1),在cpu允许中断的状态下,进行把cpu的上下文保存在主存储器上的处理(步骤H2)和超高速缓冲存储器清洗1(步骤H3)。其中,所谓超高速缓冲存储器清洗1是仅对于超高速缓冲存储器的一部分进行清洗的处理。
由此,在步骤H2或H3的执行中,当有来自其它节点的数据发送时,作为来自通信转接器的中断,数据接收请求传送到cpu。
这时,接收侧节点的cpu进行如图21的流程图所示的节点间通信的妆收处理。接收侧节点的cpu在超高速缓冲存储器清洗的过程中,通过处理来自通信转接器的中断(步骤I2-I4),在结束了用超高速缓冲存储器清洗1清洗的超高速缓冲存储器的部分上有可能存在被改写了的数据。
为此,接收侧节点在信息接收处理之后(步骤I5、I7、I8),在步骤I9中,当发生了接收请求中断时,检查是否为检查点获取过程中。在检查点获取过程中的情况下,返回到图21的步骤H2的处理,重新进行检查点的获取。
该方法基于这样的考虑,与其在不清楚是否有信息到来的状态下等待,不如作为没有来到的状态进行某种程度的超高速缓冲存储器的清洗,如果在其间有信息到来,可以再次实行超高速缓冲存储器的清洗。由此,可期待提高整个系统的性能。
另外,第4实施形态中说明了有信息到来时,在步骤H2中还要再次实行把cpu的上下文保存在主存储器上的处理,而依据cpu的上下文的保存方法,不必变更信息到来之前保持的内容。即,虽然依赖于在什么时刻保存了上下文,但例如若接收到检查点获取信息,则有来自通信转接器的中断而开始检查点获取,这时,如果保存了通常数据处理中的寄存器的内容,则预先保存上下文,可以不变更前面的数据而直接利用前面的数据。
下面,说明第5实施形态。
由于在检查点/重新运行方式的计算机中,在超高速缓冲存储器的清洗方面需要检查点获取中所需时间的大半部分,故作为有效地降低其时间的方式,使用2阶段检查点。这种情况下,取节点中的超高速缓冲存储器为可写回型。
以往的检查点方式中,如图22(a)所示,进行通常处理、检查点处理、通常处理、检查点处理...这样的反复,这里的额外开销成为:
检查点处理/(通常处理+检查点处理)在该检查点处理中,占据时间最大比例的是把超高速缓冲存储器上的更新数据写回到主存储器上(清洗)的时间。
为了缩短以往的检查点处理的额外开销中占据最大比例的“把超高速缓冲存储器上的更新数据写回(清洗)到主存储器上的时间”,依据以下的顺序,进行2阶段检查点处理。图23(b)中示出2阶段检查点方式的动作时序。
(H1)通常的数据处理
(H2)第1阶段:和通常的数据处理并行,用作为清洗专用的硬件的超高速缓冲存储器清洗装置进行超高速缓冲器清洗。
(H3)第2阶段:不进行通常的数据处理,在把cpu的上下文保存在主存储器上后,用超高速缓冲存储器清洗装置进行超高速缓冲存储器的清洗。
通过在第1阶段中,边进行通常的数据处理边进行超高速缓冲存储器清洗,在第2阶段开始时刻,相当地减少了应从超高速缓冲存储少器写回主存储器的数据量。从而,不能够进行通常的数据处理,能够减少第2阶段所需时间。
第5实施形态中,说明了把采用了该2阶段检查点方式的计算机作为分散存储型多处理器系统中的备节点使用的情况。
图23中示出各节点用于进行2阶段检查点的、超高速缓冲存储器清洗装置的控制方法。
首先,在实行通常的数据处理之际若发生了应开始第1阶段的主要原因(步骤J1、J2),则起动超高速缓冲存储器清洗硬件,即超高速缓冲存储器清洗装置(步骤J3)。由此,在用超高速缓冲存储器清洗装置进行超高速缓冲存储器清洗的另一方面能够并行地进行通常的数据处理(步骤J4)。
在此,若发生应开始第2阶段的主要原因(步骤J5),则不进行通常的数据处理,成为cpu中断禁止,把cpu的上下文保存在主存储器上(步骤J6,J7)。然后,停止,再起动超高速缓冲存储器清洗装置,把超高速缓冲存储器清洗的对象返回到超高速缓冲存储器总体中,用超高速缓冲存储器清洗装置实行第2阶段中的超高速缓冲存储器清洗(步骤J8,J9)。在第2阶段,即使把超高速缓冲存储器总体作为对象,但也仅是在第1阶段未完成写回部分和在第1阶段执行中被更新了的数据,因此写回数据量少。从而,能够缩短可以不执行通常的数据处理的时间。
若依据超高速缓冲存储器清洗装置进行的超高速缓冲存储器的清洗结束,则cpu成为中断许可,在进行了节点间的结束同步后,清除BIB,退回到通常的数据处理(步骤J10-J12)。
另外,步骤11中节点间的检查点结束同步能够使用上述第1实施形态中说明过的方法。由此,适用通过缩短检查点获取自身所需要的时间,则在缩短不能执行通常的数据处理的时间,即不能进行节点间通信的时间的同时,通过在所有节点同步地获取检查点可以立即实行节点间通信请求的本发明,能够使节点间通信的高速化。
另外,移向第1阶段及第2阶段的定时,即步骤J2及步骤J5中的判定条件方面可以有各种候补。
关于步骤J2,有各节点独立下述某个条件(I1)-(I3)是否成立的方法,以及在检测出某个节点处下述条件(I1)-(I3)成立时,用节点间通信将其传送到其它节点的方法。
(I1)各节点从再次开始通常的数据处理后经过一定时间。
(I2)超高速缓冲存储器中写回的必要数据量超过阈值。
(I3)BIB的残余容量降低到阈值。
还有,关于步骤J5,有各节点独立判定下述条件(J1)-(J)是否成立的方法以及在检测出某个节点处下述条件(J1)-(J2)成立时,用节点间通信将其传送到其它节点的方法。
(J1)各节点从第1阶段开始,经过了一定时间。
(J2)超高速缓冲存储器装置结束了所有的超高速缓存块的检查以及与此同时写回到数据主存中。
这些候补中,哪个最适合,依各节点处的数据处理的内容而异,因此,最好能够试验地选择。
还有,用节点间通信把条件(I1)-(I3)、(J1)-(J2)通知给其它节点的方法能够使用上述第1实施形态至第4实施形态中说明的方法。
以上,说明了使用2阶段检查点方式的计算机的情况。
下面,说明在把分散存储型多处理器系统中的节点分组时适用本发明的例子。在分散存储型多处理器系统中实行多种应用时,把存在于系统中的众多节点分成苦干个逻辑组,在各组进行不同的应用。
图24中概念性地示出多个节点分组的状况,各节点经由信道连接(未图示),相互之间能够进行数据收发。
例如,考虑接受来自多个远程终端的处理业务的大规模数据库系统和也参照该数据库的决策支援系统的例子。这时,数据库系统应该避开由于计算机的停机而停止服务的状况,但即使决策支援系统中有计算机的停机而从开始再次执行,也没有那么严重的影响。
于是,分散存储型多处理器系统取得检查点时,属于执行数据库系统的分组中的节点上取得了检查点,但执行决策支援系统的节点(前提是少数)尚未取得检查点。
在这里,把被指令检查点获取的节点作为取得节点,把未被指令检查点获取的节点作为非取得节点。图24中,包含于检查点采集组(数据库系统)中的节点(例如节点B、F)成为取得节点,包含于检查点非采集组(决策支援系统)的节点(例如节点C、H)成为非取得节点。
本实施形态中,在各节点上设置了使本节点是否取得检查点,即设定为检查点取得节点或非取得节点的哪一个的装置,并设以节点单位选择检查点取得的有无。
在这样检查点取得节点和非取得节点混杂结构的分散型多处理器系统的情况下,将产生如下的节点间通信。
(K1)属于实行数据库系统的组(检查点采集组)的节点间通信。
(K2)伴随从决策支援系统(检查点非采集组)对数据库查询发送的节点间通信。
(K3)伴随从数据库对决策支援系统的结果发送的节点间通信。
(K1)例如是图24中的从节点B向节点F的数据通信(1),虽然检查点获取时抑制数据发送,但由于在采集组内同步地进行检查点的采集,因此能够进行无延迟的数据通信。通过检查点取得时抑制数据发送,能够在信道中不存在传送中的数据的状态下取得检查点。
(K2)例如是图24中的从节点C向节点G的数据通信(2),在可能实行数据库一侧,仅在检查点获取过程中抑制数据发送。
(K3)例如是图24中的从节点G向节点C的数据通信(3),有时仅检查点采集组被重新运行,或者仅检查点非采集组被再次引导(reboot),由于有时在两组之间状态上产生矛盾,因此,数据发送不得不延迟到下一个检查点取得之后。
另外,在属于实行数据库系统的分组中的节点(取得节点)发生故障时,属于该组的所有节点返回到前面的检查点,再次开始通常的数据处理,而关于实行决策支援于系统的节点(非取得节点)继续通常的处理。
另一方面,实行决策支援系统的节点(非取得节点)发生了故障时,不进行再次引导,通常,从起始重新实行决策支援系统。关于属于实行数据库的分组的节点(取得节点)继续通常的处理。
这样,在分散存储型多处理器系统中,使以节点为单位设定的检查点取得节点和非取得节点混合存在,能够构筑有效的检查点/重新运行方式的分散存储型多处理器系统。
下面,说明也参照在上述大规模的数据库系统及其数据库的接受订货与订货管理系统中分别分配节点组,在每个节点组取得检查点的同时实行检查点处理的情况。
例如,如图25所示,把经由信道相互连接的多个节点分为3个组,并且设例如用一方的检查点采集组X的节点组实现大规模的数据库系统,以另一方的检查点采集组Y的节点组实现接受订货与订货管理系统。另外,还存在检查点非采集组。这里,各节点组同步地进行检查点获取。
在这种情况下,设想在实行数据库系统的组内以及实行接受订货与订货管理系统的组内频繁地发生数据通信,但在属于2个组的节点间的数据通信却极少。于是,代替在属于2个组的所有节点间同步地获取检查点,在各个组内同步地获取检查点,在2个组中不同步。
例如,在图25中,在属于某个组的各节点取得检查点之际,属于其它组的节点经由信道进行向其它节点的数据发送。例如,在检查点采集组X中取得检查点之际,检查点采集组Y的节点M对节点N进行数据传送(1)。
另一方面,属于不同组的节点间,例如节点K和节点O的数据传送(2)延迟到下一个检查点取得后。
在属于某个组的某个节点上发生故障时,属于其它组的所有节点抑制向信道的数据传送,在使对于经由信道正在传送的数据的接收结束之后,如果需要则进行初始化,使信道上没有正在通信中的数据。
还有,属于包含发生了故障的节点的组中的所有节点在分别于前面的检查点重新运行后,再次开始通常的数据处理。这样,能够按每个节点组同步地取得检查点。
通过这样以节点组为单位同步地取得检查点,则能够减少关于节点间开始检查点获取的同步、以及检查点取得后的通常的数据处理开始的处理所带来的额外开销。
另外,在图24、图25中说明的结构中,根据需要,检查点取得之后的数据间通信的方法可以使用上述第1实施形态-第4实施形态中说明过的方法。
还有,本发明由于必须把以往的分散存储型多处理器系统中的节点变更为具备检查点/重新运行机构的节点,而连接节点间的信道(通信开关10)可以原样使用,因此能够广泛地应用在分散存储型多处理器系统中。还有,适用了本发明的分散存储型多处理器系统以大规模科学技术计算和数据库处理为首,能够适用于广泛的用途,能够享受其高可靠性。
如以上详述的那样,若依据本发明,即使是在节点中使用了检查点/重新运行方式的计算机时,通过即时地进行节点间通信,也能够使节点间通信高速化。
Claims (8)
1.一个分散存储型多处理器系统,其特征在于包括:
多个节点;以及
一个通信信道,用于连接多个节点使其相互之间可以传送消息;
其中,每个节点包含:
至少一个处理器,
一个相关主存储器,和
一个相关高速缓冲存储器,用于在一个正常处理数据过程中检测错误时执行检查点检查以及重新恢复运行;
所述节点设计排列成树构造,在对所有节点同步开始执行检查点检查的树构造传输中,通过在相关父节点和对应子节点之间连续传输信息,从而实现节点之间的同步检查点检查;
通过向对应的父节点发送一个开始所述检查点获取的指令请求,从检测开始该检查点获取的必要性的一个节点把所述信息传递出去;
收到上述指令请求的父节点依次把所述指令请求传送至该树构造的根节点,以及
上述根节点命令所有的子节点开始进行检查点获取。
2.如权利要求1所述的分散存储型多处理器系统,其特征在于:
检测到应该开始进行检查点获取的节点对于父节点及所有子节点发送检查点获取指令,以及
接收到上述检查点获取指令的节点对于父节点及所有子节点中除去发送来上述检查点获取指令的节点之外的所有节点发送上述检查点获取指令,由此,在全部节点取得开始检查点获取的同步。
3.如权利要求1所述的分散式存储型多处理器系统,其特征在于:
所述相关主存储器用于存储获取的检查点;
所述相关高速缓冲存储器为可回写型高速缓冲存储器;
所述每个节点在与所有其它节点同步地获取所述检查点之前,强制性地把上述高速缓冲存储器中涂改过的数据重写到上述主存储器中。
4.如权利要求1所述的分散存储型多处理器系统,其特征在于:
上述节点的每一个在达到某时刻的时刻点开始进行上述检查点的获取,使得上述检查点的获取与其它所有的节点同步地进行。
5.如权利要求1或2所述的分散存储型多处理器系统,其特征在于:
与树构造相对应的节点中的每一个进行和相关节点建立同步结束检查点获取的数据传输;
上述每个节点一开始检查点获取的操作,就禁止从其它节点接收数据,并在即将结束检查点获取之前,为再次开始正常数据传输而允许从其它节点接收数据;
从所有子节点收到检查点结束准备完毕的通知的那个节点,把检查点结束准备完毕的信息传送给父节点,
从所有上述子节点收到上述检查点结束准备完毕的通知的那个根节点,向所有上述子节点发出检查点结束的指令,并通过废除前一个检查点来自己结束该检查点获取,以及
从父节点收到检查点结束指令的、或从一个重新开始正常数据处理的节点处收到一个正常的数据通信的那个节点,向所有的相关子节点发送检查点结束指令,并通过放弃前一个检查点来自己结束该检查点获取。
6.如权利要求5所述的分散存储型多处理器系统,其特征在于:根据在一定时刻之前是否接收了来自上述父节点中所有子节点的检查点获取结束准备完毕的通知,来检测故障。
7.如权利要求1或2所述的分散存储型多处理器系统,其特征在于:
每一个节点都具有在检查点获取操作中自我设定为检查点的获取节点或检查点的非获取节点的装置;
被设定为检查点的获取节点的节点在获取检查点时,禁止数据通过通信信道传给其它节点,并完成接收通过上述通信信道传来的数据;
被设定为非获取节点的节点禁止数据通过信道传输给被设定为获取节点的节点,并和所有其它节点同步处理数据,使信道中不存在发送的数据,以及
进行检查点获取的节点检测到错误时,禁止通信信道中的数据传输,并完成经过信道的数据接收,然后从上一次取得的检查点重新开始数据处理。
8.如权利要求1或2所述的分散存储型多处理器系统,其特征在于:
所述多个节点被分成几个用于进行不同的应用的组,每个节点组分别取得检查点;
在别的组的节点取得一个检查点之际,同组的节点相互之间进行数据传输;
暂停不同组之间的节点的数据通信,直到完成下一个检查点获取为止,以及
当在一个节点检测到错误时,禁止其它组中的所有节点在上述信道里传输数据,并结束经过上述信道的数据接收,以保持该信道里没有数据,而与检测到错误的节点同组的所有节点从上一次取得的检查点开始重新开始剩下的数据处理。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP063407/96 | 1996-03-19 | ||
JP08063407A JP3120033B2 (ja) | 1996-03-19 | 1996-03-19 | 分散メモリ型マルチプロセッサシステム及び故障回復方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1164710A CN1164710A (zh) | 1997-11-12 |
CN1225709C true CN1225709C (zh) | 2005-11-02 |
Family
ID=13228425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971045119A Expired - Fee Related CN1225709C (zh) | 1996-03-19 | 1997-03-18 | 分散存储型多处理机系统及故障恢复方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5922078A (zh) |
JP (1) | JP3120033B2 (zh) |
KR (1) | KR100238926B1 (zh) |
CN (1) | CN1225709C (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185702B1 (en) * | 1997-01-24 | 2001-02-06 | Kabushiki Kaisha Toshiba | Method and system for process state management using checkpoints |
JP3253883B2 (ja) * | 1997-01-31 | 2002-02-04 | 株式会社東芝 | プロセスリスタート方法及びプロセス監視装置 |
JP3390824B2 (ja) * | 1997-03-19 | 2003-03-31 | 株式会社日立製作所 | 多重化制御装置及びその障害回復方法 |
JPH10320274A (ja) * | 1997-03-19 | 1998-12-04 | Toshiba Corp | キャッシュフラッシュ装置及び同装置を備えた計算機システム、記録媒体 |
CA2221661A1 (en) * | 1997-11-20 | 1999-05-20 | Crosskeys Systems Corporation | Transaction roll forward |
US7065540B2 (en) | 1998-11-24 | 2006-06-20 | Oracle International Corporation | Managing checkpoint queues in a multiple node system |
US6467012B1 (en) * | 1999-07-08 | 2002-10-15 | International Business Machines Corporation | Method and apparatus using a distributed system structure to support bus-based cache-coherence protocols for symmetric multiprocessors |
JP4242155B2 (ja) * | 2001-03-07 | 2009-03-18 | オラクル・インターナショナル・コーポレイション | 永続的記憶装置へのダーティデータ項目の書込を調整するための方法、当該方法をコンピュータに行なわせるためのプログラムを格納したコンピュータ読出可能な媒体、および、永続的記憶装置へのダーティデータ項目の書込を調整するための装置 |
US6834358B2 (en) * | 2001-03-28 | 2004-12-21 | Ncr Corporation | Restartable database loads using parallel data streams |
JP3897994B2 (ja) * | 2001-05-31 | 2007-03-28 | 富士通株式会社 | スイッチ装置およびデータ転送システム |
US7512676B2 (en) * | 2001-09-13 | 2009-03-31 | Network Foundation Technologies, Llc | Systems for distributing data over a computer network and methods for arranging nodes for distribution of data over a computer network |
KR100395071B1 (ko) * | 2001-12-20 | 2003-08-19 | 엘지전자 주식회사 | 멀티프로세스 운영체계에서의 프로세스 복구 시스템 및 방법 |
US7065549B2 (en) * | 2002-03-29 | 2006-06-20 | Illinois Institute Of Technology | Communication and process migration protocols for distributed heterogeneous computing |
US7124323B2 (en) * | 2003-06-18 | 2006-10-17 | International Business Machines Corporation | Method, system, and program for recovery of a reverse restore operation |
US7562254B2 (en) * | 2003-07-01 | 2009-07-14 | International Business Machines Corporation | Checkpointing and restarting long running web services |
JP2005332370A (ja) * | 2004-04-19 | 2005-12-02 | Toshiba Corp | 制御装置 |
JP4773715B2 (ja) * | 2004-12-01 | 2011-09-14 | 富士通株式会社 | チェックポイント取得方法 |
CN100387002C (zh) * | 2004-12-24 | 2008-05-07 | 华为技术有限公司 | 一种数据回退机制的测试方法 |
US7478278B2 (en) * | 2005-04-14 | 2009-01-13 | International Business Machines Corporation | Template based parallel checkpointing in a massively parallel computer system |
US7779295B1 (en) * | 2005-06-28 | 2010-08-17 | Symantec Operating Corporation | Method and apparatus for creating and using persistent images of distributed shared memory segments and in-memory checkpoints |
US7457985B2 (en) * | 2005-09-09 | 2008-11-25 | International Business Machines Corporation | Method to detect errors in computer systems by using state tracking |
JP4421592B2 (ja) * | 2006-11-09 | 2010-02-24 | 株式会社ソニー・コンピュータエンタテインメント | マルチプロセッサシステム、その制御方法、プログラム及び情報記憶媒体 |
US7610510B2 (en) * | 2007-02-16 | 2009-10-27 | Symantec Corporation | Method and apparatus for transactional fault tolerance in a client-server system |
JP5595633B2 (ja) * | 2007-02-26 | 2014-09-24 | スパンション エルエルシー | シミュレーション方法及びシミュレーション装置 |
CN103443774A (zh) * | 2007-09-25 | 2013-12-11 | 富士通株式会社 | 信息处理装置和控制方法 |
CN101452379B (zh) * | 2007-11-28 | 2012-05-23 | 无锡江南计算技术研究所 | 内存空间的分析方法和装置、检查点的保留方法和装置 |
JP5759203B2 (ja) * | 2011-02-25 | 2015-08-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 反復法の並列コンピュータ計算における非同期なチェックポイント取得とそこからの回復 |
US8689048B1 (en) * | 2011-09-22 | 2014-04-01 | Emc Corporation | Non-logging resumable distributed cluster |
US9588685B1 (en) * | 2013-05-03 | 2017-03-07 | EMC IP Holding Company LLC | Distributed workflow manager |
KR101575547B1 (ko) * | 2014-12-09 | 2015-12-22 | 현대오트론 주식회사 | 캔 통신 시스템의 에러 분산감지 방법 및 캔 통신 시스템 |
CN105138428B (zh) * | 2015-08-22 | 2018-03-06 | 西安电子科技大学 | 基于前驱依赖的故障恢复方法 |
US10169137B2 (en) | 2015-11-18 | 2019-01-01 | International Business Machines Corporation | Dynamically detecting and interrupting excessive execution time |
CN109831342A (zh) * | 2019-03-19 | 2019-05-31 | 江苏汇智达信息科技有限公司 | 一种基于分布式系统的故障恢复方法 |
CN111756580B (zh) * | 2020-06-28 | 2021-02-12 | 涵涡智航科技(玉溪)有限公司 | 一种多节点系统的协同作业同步方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02287858A (ja) * | 1989-04-28 | 1990-11-27 | Toshiba Corp | 分散処理システムのリスタート方式 |
JP3270216B2 (ja) * | 1993-10-08 | 2002-04-02 | 富士通株式会社 | ファイル名検出方式 |
US5630047A (en) * | 1995-09-12 | 1997-05-13 | Lucent Technologies Inc. | Method for software error recovery using consistent global checkpoints |
-
1996
- 1996-03-19 JP JP08063407A patent/JP3120033B2/ja not_active Expired - Fee Related
-
1997
- 1997-03-17 KR KR1019970008909A patent/KR100238926B1/ko not_active IP Right Cessation
- 1997-03-18 CN CNB971045119A patent/CN1225709C/zh not_active Expired - Fee Related
- 1997-03-19 US US08/820,528 patent/US5922078A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US5922078A (en) | 1999-07-13 |
JPH09259098A (ja) | 1997-10-03 |
JP3120033B2 (ja) | 2000-12-25 |
CN1164710A (zh) | 1997-11-12 |
KR970066900A (ko) | 1997-10-13 |
KR100238926B1 (ko) | 2000-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1225709C (zh) | 分散存储型多处理机系统及故障恢复方法 | |
CN1157960C (zh) | 电信平台系统及其方法 | |
CN1192315C (zh) | 高速缓存清理装置以及具备该装置的计算机系统 | |
CN1120425C (zh) | 存储器控制器和存储器控制方法 | |
CN1581091A (zh) | 多点远程拷贝系统 | |
CN1287282C (zh) | 执行实时操作的方法和系统 | |
CN1779660A (zh) | 三者间的异步复制 | |
CN1280714C (zh) | 独立处理多个指令流、软式控制各指令流的处理功能的多线程处理器 | |
CN1201242C (zh) | 数据传送控制装置和电子装置 | |
CN1916961A (zh) | 可中断图形处理单元及其控制方法 | |
CN1241134C (zh) | 存储域管理系统 | |
CN1271513C (zh) | 转移指令的方法和处理器 | |
CN1052201A (zh) | 动态管理输入/输出(i/o)连接的方法和装置 | |
CN1684029A (zh) | 存储系统 | |
CN1912926A (zh) | 可中断图形处理单元处理多个程序的方法和图形处理单元 | |
CN1293777A (zh) | 算术处理装置,对象对对象的通信方法和机器人装置 | |
CN1238050A (zh) | 一种在具有多系统总线的计算机系统中保持存储器相关性的系统和方法 | |
CN1629815A (zh) | 具有多数个存储系统的数据处理系统 | |
CN1698034A (zh) | 信息处理装置、进程控制方法、以及计算机程序 | |
CN1601474A (zh) | 执行实时操作的方法和系统 | |
CN1760836A (zh) | 信息处理系统、信息处理方法和程序 | |
CN1906583A (zh) | 信息处理设备、中断处理控制方法、以及计算机程序 | |
CN1125868A (zh) | 计算机系统及其输入输出指令的发送方法 | |
CN1573656A (zh) | 并行处理系统中的电源管理系统及电源管理程序 | |
CN1679004A (zh) | 高速缓存设备、高速缓存数据管理方法和计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |