[go: up one dir, main page]

CN111581003A - 一种全硬件双核锁步处理器容错系统 - Google Patents

一种全硬件双核锁步处理器容错系统 Download PDF

Info

Publication number
CN111581003A
CN111581003A CN202010356342.2A CN202010356342A CN111581003A CN 111581003 A CN111581003 A CN 111581003A CN 202010356342 A CN202010356342 A CN 202010356342A CN 111581003 A CN111581003 A CN 111581003A
Authority
CN
China
Prior art keywords
processor
fault
write operation
slave
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010356342.2A
Other languages
English (en)
Other versions
CN111581003B (zh
Inventor
黄凯
陈群
蒋小文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Power Grid International Co ltd
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010356342.2A priority Critical patent/CN111581003B/zh
Publication of CN111581003A publication Critical patent/CN111581003A/zh
Application granted granted Critical
Publication of CN111581003B publication Critical patent/CN111581003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明属于微处理器领域,提供了一种全硬件双核锁步处理器容错系统,包括主处理器和从处理器,其特征在于,还包括硬件容错模块,所述硬件容错模块包括:故障检测模块、故障恢复模块和故障隔离模块;所述主处理器和从处理器具有相同的输入信号,所述主处理器对外输出信号,所述从处理器不对外输出信号。本发明的一种全硬件双核锁步处理器容错系统能够实现快速检测故障发生,加快故障恢复速度,故障隔离时不影响系统性能,在保证处理器容错优良可靠性与实时性的同时,降低容错带来的面积成本。

Description

一种全硬件双核锁步处理器容错系统
技术领域
本发明属于微处理器领域,尤其涉及一种全硬件双核锁步处理器容错系统。
背景技术
随着工业4.0时代的到来,工业微控制器在我国工业自动化发展中正扮演着越来越重要的角色。相比较一般的消费级应用,工业微控制器对可靠性、低成本及实时性上的要求更高。嵌入式处理器作为工业微控制器的核心,由于工艺节点的降低和低功耗技术的发展,其可靠性正面临着严峻的挑战。特征尺寸和电压阈值的降低导致半导体集成电路对电路串扰,大气辐射,封装材料衰变产生的高能粒子,极端温度,电磁干扰等因素也愈加敏感,因而受到干扰发生故障的可能性也越来越高。这些干扰所导致的故障大多是一些瞬态故障,是由外界条件干扰导致半导体中随机、临时状态的改变或瞬变,能够通过复位,恢复受影响器件的功能。然而在处理器运行过程中,任何一比特的错误都可能导致错误结果的输出或者整个系统的失效,这对工业应用来说,可能造成巨大的财产损失甚至人员伤亡。
目前业界对于商用处理器常用的两种容错方法是三模冗余和基于检查点的双核锁步容错。前者通过在硬件上采用三个处理器实时对比,然后经多数表决后输出,具有较高的可靠性和实时性,但所需的面积开销太大。后者在硬件上采用两个处理器实时对比,检测故障,但故障的恢复通过软件完成,需要间歇性保存处理器正确的状态节点,并在故障发生时,将处理器还原到上一个节点。这种方式在进行故障恢复时,由于只能恢复对软件可见的处理器状态,因此可靠性较差,并且在遇到挂起类型错误时,可能会由于软件程序无法响应而恢复失败。此外,它通常不考虑到处理器内嵌缓存(Cache)的容错,所以虽然基于检查点的双核锁步容错采用软硬结合的方式节省了面积,但在可靠性、性能、实时性都存在不足。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供一种全硬件双核锁步处理器容错系统,其具体技术方案如下。
一种全硬件双核锁步处理器容错系统,包括主处理器和从处理器和硬件容错模块,所述硬件容错模块包括:故障检测模块、故障恢复模块和故障隔离模块;所述主处理器和从处理器具有相同的输入信号,所述主处理器对外输出信号,所述从处理器不对外输出信号。
进一步的,所述故障检测模块通过硬连线将主处理器和从处理器的内部相关信号拉出并作对比检测,所述相关信号包括主处理器和从处理器中的内部控制状态寄存器的信号、总线接口的信号以及Cache接口的信号;其中所述内部控制状态寄存器包括:通用寄存器,程序计数器、状态寄存器、以及处理器内部紧耦合IP的相关控制状态寄存器。
进一步的,所述故障恢复模块进行故障恢复包括以下两个步骤:
a.在没有发生故障时,将正确节点上的主处理器和从处理器状态信息保存至回滚缓冲区;所述正确节点为在发生故障之前,主处理器和从处理器正常运行,没有因瞬时错误发生而导致主处理器和从处理器出现状态不一致时的某个执行点;所述状态信息为主处理器和从处理器内部的控制状态寄存器值;
b.在发生故障后,主处理器和从处理器进行硬件复位,复位完成后,主处理器和从处理器重新从0地址取指,同时更改指令总线上0地址的内容,并将回滚缓冲区中保存在正确节点上的状态信息置入主处理器和从处理器,使主处理器和从处理器从上一次保存的正确节点重新执行指令。
进一步的,所述状态信息置入主处理器和从处理器具体为:在主处理器和从处理器内部找到相关的控制状态寄存器,并在所述控制状态寄存器的条件赋值中增加待恢复状态信息这一数据来源,当检测到置位信号这一脉冲信号后,所述控制状态寄存器中的值将被顺利恢复;所述置位信号为主处理器和从处理器硬件复位完成的脉冲信号。
进一步的,所述故障隔离模块用于阻止主处理器和从处理器的错误写操作以及对外部状态进行回滚操作。
进一步的,所述外部状态包括外部的存储器状态、外围接口或系统IP状态、主处理器和从处理器内部的缓存的状态。
进一步的,所述存储器挂载在主处理器和从处理器的数据总线上,通过建立写操作缓冲区完成存储器的故障隔离,所述写操作缓冲区包括写地址缓冲区、写数据缓冲区、PC缓冲区和故障PC缓冲区,每个由3个寄存器组成;所述写地址缓冲区保存的是每次写操作对应的写地址,所述写数据缓冲区保存的是每次写操作对应的写数据,所述PC缓冲区保存的是每次写操作对应的当前退休指令的PC,所述故障PC缓冲区保存的是发生故障后至主处理器和从处理器被复位这段时间内执行过的指令的PC。
进一步的,所述主处理器和从处理器对存储器的每次写操作都将被暂时存放到写操作缓冲区中;当存满三个写操作后,主处理器和从处理器再次发起写操作时,将写操作缓冲区中第一次存入的写地址非0的写操作发出,以此类推;当主处理器和从处理器需要从存储器中读取数据时,将此时的读地址与写操作缓冲区中的地址匹配,若地址匹配一致且地址非0,则将写操作缓冲区中保存的数据返回给主处理器和从处理器;当发生故障需进行状态回滚时,写操作缓冲区将对应PC与当前故障PC缓冲区中的PC值相同的写操作无效,即将写操作缓冲区中对应的写操作地址置为0;当除主处理器和从处理器以外的主机需要访问存储器时,软件上保证被主处理器和从处理器向存储器的无用地址进行三次写操作,使当前写操作缓冲区中保留的写操作更新到存储器中。
进一步的,所述外围接口以及系统IP挂载在主处理器和从处理器的系统总线上,对主处理器和从处理器的写操作进行三个周期的延迟,读操作时序不变。
进一步的,所述主处理器和从处理器内部的缓存为:在写通工作模式下,发生故障时,则在故障恢复期间将以下8个缓存行无效:
当缓存中没有读数据错误时,将主处理器缓存最后4个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址;
当缓存中出现读出数据错误时,将读出数据错误的1个地址,主处理器缓存最后3个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址。
有益效果:
本发明的一种全硬件双核锁步处理器容错系统能够实现快速检测故障发生,加快故障恢复速度,故障隔离时不影响系统性能,在保证处理器容错优良可靠性与实时性的同时,降低容错带来的面积成本。
附图说明
图1是本发明的双核处理器容错结构框图;
图2是本发明的故障检测模块框图;
图3是本发明的正确节点状态的保存示意图;
图4是本发明的状态信息重置电路结构图;
图5是本发明的写操作缓冲区结构图;
图6是本发明的复位期间对缓存的无效操作时序图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。
本发明提出的一种全硬件双核锁步处理器容错系统,通过对处理器双模冗余并增加硬件容错模块,实现故障的实时检测和恢复,以及写通模式下的片上缓存容错。
如图1所示的一种全硬件双核锁步处理器容错系统,包括主处理器、从处理器和硬件容错模块;所述硬件容错模块包括:故障检测模块、故障恢复模块和故障隔离模块;所述主处理器和从处理器具有相同的输入信号,其中主处理器对外输出信号,从处理器不能对外输出信号。
如图2所示,所述故障检测模块主要通过硬连线将主处理器和从处理器的内部相关信号拉出并作对比检测,所述相关信号包括主处理器和从处理器中的内部控制状态寄存器的信号、总线接口的信号以及Cache接口的信号;其中所述内部控制状态寄存器包括:通用寄存器,处理器内部的控制寄存器如程序计数器、处理器状态寄存器等以及一些紧耦合IP如计时器和中断控制器的相关控制状态寄存器。
由于故障的产生是随机的,为了防止因亚稳态的出现,将不确定状态传播下去,最终把因对比不一致产生的错误报警信号需进行两级同步后作为故障隔离及恢复的信号。
如图3所示,所述故障恢复模块进行故障恢复主要分为以下两个步骤:
a.在没有发生故障时,需要将正确节点上的主处理器和从处理器状态信息保存至回滚缓冲区;所述正确节点为在发生故障之前,主处理器和从处理器正常运行,没有因瞬时错误发生而导致主处理器和从处理器出现状态不一致时的某个执行点;所述状态信息为主处理器和从处理器内部的控制状态寄存器值;
b.在发生故障后,主处理器和从处理器进行硬件复位,复位完成后,主处理器和从处理器重新从0地址取指,同时更改指令总线上0地址的内容,并将回滚缓冲区中保存在正确节点上的状态信息置入主处理器和从处理器,使主处理器和从处理器从上一次保存的正确节点重新执行指令。
如图4所示,所述状态信息置入主处理器和从处理器具体为:在主处理器和从处理器内部找到相关的控制状态寄存器,并在所述控制状态寄存器的条件赋值中增加待恢复状态信息这一数据来源,当检测到置位信号这一脉冲信号后,所述控制状态寄存器中的值将被顺利恢复;所述置位信号为主处理器和从处理器硬件复位完成的脉冲信号。
所述故障恢复模块可以回滚主处理器和从处理器的状态,但无法回滚主处理器和从处理器的外部状态,所述外部状态为外部的存储器状态、外围接口或系统IP状态、主处理器和从处理器内部的缓存的状态,因此需要故障隔离模块阻止主处理器和从处理器的错误写操作以及对外部状态进行回滚操作。
所述存储器挂载在主处理器和从处理器的数据总线上,为了进行故障隔离,需要对所述数据总线的写操作进行修改,对于存储器来说,写操作中的数据是否被真实写入并不重要,重要的是当主处理器和从处理器再次访问该地址时,能够得到之前写入的值。
如图5所示,存储器的故障隔离可以通过建立一个写操作缓冲区完成,写操作缓冲区主要由写地址缓冲区、写数据缓冲区、PC缓冲区和故障PC缓冲区组成,所述写地址缓冲区保存的是每次写操作对应的写地址,所述写数据缓冲区保存的是每次写操作对应的写数据,所述PC缓冲区保存的是每次写操作对应的当前退休指令的PC,所述故障PC缓冲区保存的是发生故障后至主处理器和从处理器被复位这段时间内执行过的指令的PC。
所述主处理器和从处理器发生故障后,最多可再执行两次写操作,即最多有不超过三个错误的写操作需要被隔离,因此每个写操作缓冲区由3个寄存器组成,主处理器和从处理器对存储器的每次写操作的都将被暂时存放到写操作缓冲区中,当存满三个写操作后,主处理器和从处理器再次发起写操作时,会将写操作缓冲区中第一次存入的写地址非0的写操作发出,以此类推。
当主处理器和从处理器需要从存储器中读取数据时,会将此时的读地址与写操作缓冲区中的地址匹配,若地址匹配一致且地址非0,则将写操作缓冲区中保存的数据返回给主处理器和从处理器。
发生故障,需要进行状态回滚时,写操作缓冲区会将对应PC与当前故障PC缓冲区中的PC值相同的写操作无效,具体的方法是将写操作缓冲区中对应的写操作地址置为0,无效后的写操作对应的数据既不会再被写入存储也不会被主处理器和从处理器读取。当除主处理器和从处理器以外的主机,如DMA需要访问存储器时,需软件上保证被主处理器和从处理器向存储器的无用地址进行三次写操作,使得当前写操作缓冲区中保留的写操作更新到存储器中,确保DMA访问存储器时取得最新数据。
所述外围接口以及系统IP挂载在主处理器和从处理器的系统总线上,为了进行故障隔离,需要对所述系统总线的写操作进行修改。主处理器和从处理器对于外围接口以及系统IP的访问主要是用于控制IP的工作模式和状态,因此数据是否真的写入IP是非常重要的。通常,主处理器和从处理器对于这些IP的直接访问并不频繁,因此直接在系统总线上,对处理器的写操作进行三个周期的延迟,读操作时序不变。对于AHB总线来说,延迟操作通过拉低Hready实现。
所述主处理器和从处理器内部的缓存为:在写通工作模式下,发生故障时,通过对缓存中的错误数据或超前状态数据进行无效,完成缓存的故障隔离。为了确保缓存得到正确恢复及隔离的同时减少故障恢复时间,选择在故障恢复期间将以下8个缓存行无效:
当缓存中没有读数据错误时,将主处理器缓存最后4个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址;
当缓存中出现读出数据错误时,将读出数据错误的1个地址,主处理器缓存最后3个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址。
具体的,如图6所示,当故障发生时,在主处理器和从处理器出现故障至复位跳转期间,将缓存对应的标记存储区SRAM接口上的CEN拉低,同时对所述8个缓存的地址依次写0,将对应的缓存行无效,从而完成对缓存的故障隔离。

Claims (10)

1.一种全硬件双核锁步处理器容错系统,包括主处理器和从处理器,其特征在于,还包括硬件容错模块,所述硬件容错模块包括:故障检测模块、故障恢复模块和故障隔离模块;所述主处理器和从处理器具有相同的输入信号,所述主处理器对外输出信号,所述从处理器不对外输出信号。
2.如权利要求1所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述故障检测模块通过硬连线将主处理器和从处理器的内部相关信号拉出并作对比检测,所述相关信号包括主处理器和从处理器中的内部控制状态寄存器的信号、总线接口的信号以及Cache接口的信号;其中所述内部控制状态寄存器包括:通用寄存器,程序计数器、状态寄存器、以及处理器内部紧耦合IP的相关控制状态寄存器。
3.如权利要求1所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述故障恢复模块进行故障恢复包括以下两个步骤:
a.在没有发生故障时,将正确节点上的主处理器和从处理器状态信息保存至回滚缓冲区;所述正确节点为在发生故障之前,主处理器和从处理器正常运行,没有因瞬时错误发生而导致主处理器和从处理器出现状态不一致时的某个执行点;所述状态信息为主处理器和从处理器内部的控制状态寄存器值;
b.在发生故障后,主处理器和从处理器进行硬件复位,复位完成后,主处理器和从处理器重新从0地址取指,同时更改指令总线上0地址的内容,并将回滚缓冲区中保存在正确节点上的状态信息置入主处理器和从处理器,使主处理器和从处理器从上一次保存的正确节点重新执行指令。
4.如权利要求3所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述状态信息置入主处理器和从处理器具体为:在主处理器和从处理器内部找到相关的控制状态寄存器,并在所述控制状态寄存器的条件赋值中增加待恢复状态信息这一数据来源,当检测到置位信号这一脉冲信号后,所述控制状态寄存器中的值将被顺利恢复;所述置位信号为主处理器和从处理器硬件复位完成的脉冲信号。
5.如权利要求1所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述故障隔离模块用于阻止主处理器和从处理器的错误写操作以及对外部状态进行回滚操作。
6.如权利要求5所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述外部状态包括外部的存储器状态、外围接口或系统IP状态、主处理器和从处理器内部的缓存的状态。
7.如权利要求6所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述存储器挂载在主处理器和从处理器的数据总线上,通过建立写操作缓冲区完成存储器的故障隔离,所述写操作缓冲区包括写地址缓冲区、写数据缓冲区、PC缓冲区和故障PC缓冲区,每个由3个寄存器组成;所述写地址缓冲区保存的是每次写操作对应的写地址,所述写数据缓冲区保存的是每次写操作对应的写数据,所述PC缓冲区保存的是每次写操作对应的当前退休指令的PC,所述故障PC缓冲区保存的是发生故障后至主处理器和从处理器被复位这段时间内执行过的指令的PC。
8.如权利要求7所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述主处理器和从处理器对存储器的每次写操作都将被暂时存放到写操作缓冲区中;当存满三个写操作后,主处理器和从处理器再次发起写操作时,将写操作缓冲区中第一次存入的写地址非0的写操作发出,以此类推;当主处理器和从处理器需要从存储器中读取数据时,将此时的读地址与写操作缓冲区中的地址匹配,若地址匹配一致且地址非0,则将写操作缓冲区中保存的数据返回给主处理器和从处理器;当发生故障需进行状态回滚时,写操作缓冲区将对应PC与当前故障PC缓冲区中的PC值相同的写操作无效,即将写操作缓冲区中对应的写操作地址置为0;当除主处理器和从处理器以外的主机需要访问存储器时,软件上保证被主处理器和从处理器向存储器的无用地址进行三次写操作,使当前写操作缓冲区中保留的写操作更新到存储器中。
9.如权利要求6所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述外围接口以及系统IP挂载在主处理器和从处理器的系统总线上,对主处理器和从处理器的写操作进行三个周期的延迟,读操作时序不变。
10.如权利要求6所述的一种全硬件双核锁步处理器容错系统,其特征在于,所述主处理器和从处理器内部的缓存为:在写通工作模式下,发生故障时,则在故障恢复期间将以下8个缓存行无效:
当缓存中没有读数据错误时,将主处理器缓存最后4个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址;
当缓存中出现读出数据错误时,将读出数据错误的1个地址,主处理器缓存最后3个写操作地址,从处理器缓存最后4个写操作地址作为需要无效的缓存行地址。
CN202010356342.2A 2020-04-29 2020-04-29 一种全硬件双核锁步处理器容错系统 Active CN111581003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356342.2A CN111581003B (zh) 2020-04-29 2020-04-29 一种全硬件双核锁步处理器容错系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356342.2A CN111581003B (zh) 2020-04-29 2020-04-29 一种全硬件双核锁步处理器容错系统

Publications (2)

Publication Number Publication Date
CN111581003A true CN111581003A (zh) 2020-08-25
CN111581003B CN111581003B (zh) 2021-12-28

Family

ID=72126428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356342.2A Active CN111581003B (zh) 2020-04-29 2020-04-29 一种全硬件双核锁步处理器容错系统

Country Status (1)

Country Link
CN (1) CN111581003B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091380A (zh) * 2021-11-18 2022-02-25 上海励驰半导体有限公司 一种基于lockstep设计的异常检测方法及系统
WO2022147990A1 (zh) * 2021-01-07 2022-07-14 浙江大学 一种可动态配置的多核处理器容错系统
EP4047479A1 (en) * 2021-02-22 2022-08-24 Nxp B.V. Safe-stating a system interconnect within a data processing system
CN116643935A (zh) * 2023-07-21 2023-08-25 天津国芯科技有限公司 一种可配置延迟时间的双核锁步芯片
CN116821038A (zh) * 2023-08-28 2023-09-29 英特尔(中国)研究中心有限公司 用于处理器的锁步控制装置和方法
US11782777B1 (en) 2022-06-22 2023-10-10 International Business Machines Corporation Preventing extraneous messages when exiting core recovery
CN118093253A (zh) * 2024-04-28 2024-05-28 西北工业大学 一种多核锁步处理器多级快速错误恢复系统
CN118427112A (zh) * 2024-07-05 2024-08-02 西北工业大学 一种多核结构处理器中锁步核调试及容错性能验证系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060107116A1 (en) * 2004-10-25 2006-05-18 Michaelis Scott L System and method for reestablishing lockstep for a processor module for which loss of lockstep is detected
CN1804811A (zh) * 2004-12-21 2006-07-19 日本电气株式会社 容错系统及其中所使用的控制装置、动作方法
US20070043972A1 (en) * 2005-08-19 2007-02-22 Stratus Technologies Bermuda Ltd. Systems and methods for split mode operation of fault-tolerant computer systems
CN103544087A (zh) * 2013-10-30 2014-01-29 中国航空工业集团公司第六三一研究所 一种锁步的处理器总线监控方法与计算机
CN104699550A (zh) * 2014-12-05 2015-06-10 中国航空工业集团公司第六三一研究所 一种基于lockstep架构的错误恢复方法
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN108228391A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种LockStep处理机及管理方法
CN110147343A (zh) * 2019-05-09 2019-08-20 中国航空工业集团公司西安航空计算技术研究所 一种全比较的Lockstep处理器架构

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060107116A1 (en) * 2004-10-25 2006-05-18 Michaelis Scott L System and method for reestablishing lockstep for a processor module for which loss of lockstep is detected
CN1804811A (zh) * 2004-12-21 2006-07-19 日本电气株式会社 容错系统及其中所使用的控制装置、动作方法
US20070043972A1 (en) * 2005-08-19 2007-02-22 Stratus Technologies Bermuda Ltd. Systems and methods for split mode operation of fault-tolerant computer systems
CN103544087A (zh) * 2013-10-30 2014-01-29 中国航空工业集团公司第六三一研究所 一种锁步的处理器总线监控方法与计算机
CN104699550A (zh) * 2014-12-05 2015-06-10 中国航空工业集团公司第六三一研究所 一种基于lockstep架构的错误恢复方法
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN108228391A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种LockStep处理机及管理方法
CN110147343A (zh) * 2019-05-09 2019-08-20 中国航空工业集团公司西安航空计算技术研究所 一种全比较的Lockstep处理器架构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙越: "面向商用APSoC器件的双核锁步机制", 《科技创新导报》 *
陈浩: "处理器Lockstep技术研究", 《数字技术与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022147990A1 (zh) * 2021-01-07 2022-07-14 浙江大学 一种可动态配置的多核处理器容错系统
EP4047479A1 (en) * 2021-02-22 2022-08-24 Nxp B.V. Safe-stating a system interconnect within a data processing system
US11645155B2 (en) 2021-02-22 2023-05-09 Nxp B.V. Safe-stating a system interconnect within a data processing system
CN114091380A (zh) * 2021-11-18 2022-02-25 上海励驰半导体有限公司 一种基于lockstep设计的异常检测方法及系统
US11782777B1 (en) 2022-06-22 2023-10-10 International Business Machines Corporation Preventing extraneous messages when exiting core recovery
CN116643935A (zh) * 2023-07-21 2023-08-25 天津国芯科技有限公司 一种可配置延迟时间的双核锁步芯片
CN116643935B (zh) * 2023-07-21 2023-09-26 天津国芯科技有限公司 一种可配置延迟时间的双核锁步芯片
CN116821038A (zh) * 2023-08-28 2023-09-29 英特尔(中国)研究中心有限公司 用于处理器的锁步控制装置和方法
CN116821038B (zh) * 2023-08-28 2023-12-26 英特尔(中国)研究中心有限公司 用于处理器的锁步控制装置和方法
CN118093253A (zh) * 2024-04-28 2024-05-28 西北工业大学 一种多核锁步处理器多级快速错误恢复系统
CN118093253B (zh) * 2024-04-28 2024-06-28 西北工业大学 一种多核锁步处理器多级快速错误恢复系统
CN118427112A (zh) * 2024-07-05 2024-08-02 西北工业大学 一种多核结构处理器中锁步核调试及容错性能验证系统

Also Published As

Publication number Publication date
CN111581003B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN111581003B (zh) 一种全硬件双核锁步处理器容错系统
EP1966697B1 (en) Software assisted nested hardware transactions
US8190951B2 (en) Handling of errors in a data processing apparatus having a cache storage and a replicated address storage
US20090044044A1 (en) Device and method for correcting errors in a system having at least two execution units having registers
US20080126718A1 (en) Method And Device For Monitoring A Memory Unit In A Mutliprocessor System
EP1989619A2 (en) Hardware acceleration for a software transactional memory system
US9502139B1 (en) Fine grained online remapping to handle memory errors
US20100169582A1 (en) Obtaining data for redundant multithreading (RMT) execution
JP2006164277A (ja) プロセッサにおけるエラー除去装置および方法,プロセッサ
TW200817889A (en) Fault detection using redundant virtual machines
US10817369B2 (en) Apparatus and method for increasing resilience to faults
US20150286544A1 (en) Fault tolerance in a multi-core circuit
US20200272533A1 (en) Detecting memory mismatch between lockstep systems using a memory signature
KR20250008521A (ko) 체크포인트 저장
CN116302648A (zh) 一种基于双核锁步处理器的故障处理方法
CN104699550A (zh) 一种基于lockstep架构的错误恢复方法
CN103279329A (zh) 支持同步edac校验的高效取指流水线
CN118733352A (zh) 双核锁步处理器的硬件快速恢复架构、电子设备及方法
CN117421144A (zh) 具有故障检测与恢复功能的双核锁步处理器系统
CN104657229A (zh) 基于高可用性硬件检查点的多核处理器卷回恢复系统及其卷回恢复方法
CN107168827B (zh) 基于检查点技术的双冗余流水线及容错方法
CN206833419U (zh) 基于检查点技术的双冗余流水线
Li et al. Fault-tolerant design of power edge computing processor based on full-hardware dual-core lockstep
Ning et al. Fault-tolerance cmp architecture based on smt technology
CN112506701B (zh) 一种基于三模lockstep的多处理器芯片错误恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210420

Address after: 310013 No. 866 Tong Road, Xihu District, Zhejiang, Hangzhou, Yuhang

Applicant after: ZHEJIANG University

Applicant after: China South Power Grid International Co.,Ltd.

Address before: 310013 No. 866 Tong Road, Xihu District, Zhejiang, Hangzhou, Yuhang

Applicant before: ZHEJIANG University

GR01 Patent grant
GR01 Patent grant